[贝叶斯定理](贝叶斯定理.md)
假设你有一个垃圾邮件分类系统,它会根据邮件的内容判断是否为垃圾邮件。
训练数据:
你已经有很多已标注的邮件:
1000 封邮件,其中 400 封是垃圾邮件,600 封是正常邮件。
统计发现,垃圾邮件中 300 封包含"中奖"这个词,而正常邮件中只有 30 封包含"中奖"。
现在,你收到一封新邮件,包含"中奖"这个词。该邮件是垃圾邮件的概率是多少?
用贝叶斯定理计算:
先验概率($P(A)$)
垃圾邮件的比例:
$P(\text{垃圾邮件})=400/1000=0.4$
似然($P(B|A)$)
在垃圾邮件中,包含"中奖"这个词的概率:
$P(\text{中奖}|\text{垃圾邮件})=300/400=0.75$
总概率($P(B)$)
计算"中奖"这个词在所有邮件中出现的概率:
$P(\text{中奖})=P(\text{中奖}|\text{垃圾邮件})\cdot P(\text{垃圾邮件})+P(\text{中奖}|\text{正常邮件})\cdot P(\text{正常邮件})$
$=(300/1000)+(30/1000)=0.33$
后验概率($P(A|B)$)
计算"在这封邮件包含'中奖'这个词的情况下,它是垃圾邮件的概率":
$P(\text{垃圾邮件}|\text{中奖})=\frac{P(\text{中奖}|\text{垃圾邮件})\cdot P(\text{垃圾邮件})}{P(\text{中奖})}$
$=\frac{0.75\times 0.4}{0.33}\approx 0.91$
所以,这封邮件有 91% 的概率是垃圾邮件,所以分类器可能会把它标记为垃圾邮件。
1. 贝叶斯分类的优势
简单高效:计算简单,适用于大规模数据。
对小样本数据友好:即使数据量不大,贝叶斯分类也能有效推断概率。
适用于文本分类:如垃圾邮件检测、情感分析、新闻分类等。
2. 贝叶斯分类的缺点
强独立假设:朴素贝叶斯假设特征(如邮件中的单词)相互独立,但实际上并不总是成立。
依赖数据质量:如果训练数据不全面,分类器可能会做出错误预测。