贝叶斯分类 - 🎯转了码的刘公子

[贝叶斯公式](贝叶斯公式.md) 假设你有一个垃圾邮件分类系统，它会根据邮件的内容判断是否为垃圾邮件。训练数据：你已经有很多已标注的邮件： 1000 封邮件，其中 400 封是垃圾邮件，600 封是正常邮件。统计发现，垃圾邮件中 300 封包含"中奖"这个词，而正常邮件中只有 30 封包含"中奖"。现在，你收到一封新邮件，包含"中奖"这个词。该邮件是垃圾邮件的概率是多少？用贝叶斯定理计算：先验概率（$P(A)$）垃圾邮件的比例： $P(\text{垃圾邮件})=400/1000=0.4$ 似然（$P(B|A)$）在垃圾邮件中，包含"中奖"这个词的概率： $P(\text{中奖}|\text{垃圾邮件})=300/400=0.75$ 总概率（$P(B)$）计算"中奖"这个词在所有邮件中出现的概率： $P(\text{中奖})=P(\text{中奖}|\text{垃圾邮件})\cdot P(\text{垃圾邮件})+P(\text{中奖}|\text{正常邮件})\cdot P(\text{正常邮件})$ $=(300/1000)+(30/1000)=0.33$ 后验概率（$P(A|B)$）计算"在这封邮件包含'中奖'这个词的情况下，它是垃圾邮件的概率"： $P(\text{垃圾邮件}|\text{中奖})=\frac{P(\text{中奖}|\text{垃圾邮件})\cdot P(\text{垃圾邮件})}{P(\text{中奖})}$ $=\frac{0.75\times 0.4}{0.33}\approx 0.91$ 所以，这封邮件有 91% 的概率是垃圾邮件，所以分类器可能会把它标记为垃圾邮件。 1. 贝叶斯分类的优势简单高效：计算简单，适用于大规模数据。对小样本数据友好：即使数据量不大，贝叶斯分类也能有效推断概率。适用于文本分类：如垃圾邮件检测、情感分析、新闻分类等。 2. 贝叶斯分类的缺点强独立假设：朴素贝叶斯假设特征（如邮件中的单词）相互独立，但实际上并不总是成立。依赖数据质量：如果训练数据不全面，分类器可能会做出错误预测。