[贝叶斯定理](贝叶斯定理.md) 假设你有一个垃圾邮件分类系统,它会根据邮件的内容判断是否为垃圾邮件。 训练数据: 你已经有很多已标注的邮件: 1000 封邮件,其中 400 封是垃圾邮件,600 封是正常邮件。 统计发现,垃圾邮件中 300 封包含"中奖"这个词,而正常邮件中只有 30 封包含"中奖"。 现在,你收到一封新邮件,包含"中奖"这个词。该邮件是垃圾邮件的概率是多少? 用贝叶斯定理计算: 先验概率($P(A)$) 垃圾邮件的比例: $P(\text{垃圾邮件})=400/1000=0.4$ 似然($P(B|A)$) 在垃圾邮件中,包含"中奖"这个词的概率: $P(\text{中奖}|\text{垃圾邮件})=300/400=0.75$ 总概率($P(B)$) 计算"中奖"这个词在所有邮件中出现的概率: $P(\text{中奖})=P(\text{中奖}|\text{垃圾邮件})\cdot P(\text{垃圾邮件})+P(\text{中奖}|\text{正常邮件})\cdot P(\text{正常邮件})$ $=(300/1000)+(30/1000)=0.33$ 后验概率($P(A|B)$) 计算"在这封邮件包含'中奖'这个词的情况下,它是垃圾邮件的概率": $P(\text{垃圾邮件}|\text{中奖})=\frac{P(\text{中奖}|\text{垃圾邮件})\cdot P(\text{垃圾邮件})}{P(\text{中奖})}$ $=\frac{0.75\times 0.4}{0.33}\approx 0.91$ 所以,这封邮件有 91% 的概率是垃圾邮件,所以分类器可能会把它标记为垃圾邮件。 1. 贝叶斯分类的优势 简单高效:计算简单,适用于大规模数据。 对小样本数据友好:即使数据量不大,贝叶斯分类也能有效推断概率。 适用于文本分类:如垃圾邮件检测、情感分析、新闻分类等。 2. 贝叶斯分类的缺点 强独立假设:朴素贝叶斯假设特征(如邮件中的单词)相互独立,但实际上并不总是成立。 依赖数据质量:如果训练数据不全面,分类器可能会做出错误预测。