广义线性模型 - 𓀚 转了码的刘公子

# 💡 Summary | 问题类型 | 结果特点 | 用什么GLM | | ---------- | -------------- | ---------- | | 客户会不会买？| 是/否（二分类）| [[逻辑回归LR]] | | 网站一天访问多少次？| 计数（0,1,2,3...）| [[泊松回归]] | | 收入是多少？| 连续数值 | 普通[[线性回归]] | | | | | # 🧩 Cues # 🪞Notes # 通俗解释：广义线性模型（GLM） ## 🎯 核心思想 **普通线性模型的"升级版"，能处理更多类型的数据** ## 📊 先理解普通线性模型 ### 经典线性回归的局限 ```Java 身高 = 2 × 年龄 + 100 收入 = 500 × 工作年限 + 3000 ``` **问题**：只能预测**连续数值**，且假设误差是正态分布 ## 🚀 广义线性模型的三大扩展 ### 1️⃣ **能处理不同类型的结果** | 问题类型 | 结果特点 | 用什么GLM | |---------|---------|----------| | 客户会不会买？| 是/否（二分类）| **逻辑回归** | | 网站一天访问多少次？| 计数（0,1,2,3...）| **泊松回归** | | 收入是多少？| 连续数值 | 普通线性回归 | ### 2️⃣ **使用"链接函数"做转换** #### 生活化例子：预测考试通过率 ```Java 错误做法（普通线性）: 通过率 = 0.1 × 学习小时数问题：学习100小时 → 通过率=10（超过100%了！）正确做法（GLM逻辑回归）: log(通过率/不通过率) = 0.5 × 学习小时数结果始终在 0-100% 之间 ✓ ``` ### 3️⃣ **允许不同的误差分布** - **正态分布**：身高、体重等连续变量 - **二项分布**：成功/失败 - **泊松分布**：罕见事件计数 ## 🔧 GLM的三个组成部分 ```Java 1. 随机成分：Y的概率分布（正态/二项/泊松...） 2. 系统成分：线性预测式 (β₀ + β₁X₁ + β₂X₂...) 3. 链接函数：把两者连接起来 ``` ## 💡 实际应用场景 ### 案例1：预测点击广告（逻辑回归） ```Java 问题：用户会不会点击？（只有"点"或"不点"）模型：P(点击) = f(年龄, 收入, 浏览时长) ``` ### 案例2：预测索赔次数（泊松回归） ```Java 问题：一年内车险索赔几次？（0,1,2,3...次）模型：索赔次数 = f(驾龄, 车龄, 地区) ``` ### 案例3：预测花费金额（Gamma回归） ```Java 问题：客户会花多少钱？（只能>0，右偏分布）模型：花费 = f(会员等级, 历史消费, 促销力度) ``` ## ⚖️ 对比总结 | 特性 | 普通线性模型 | 广义线性模型 | |-----|------------|------------| | 结果类型 | 只能连续数值 | **各种类型** | | 误差分布 | 必须正态分布 | **多种分布** | | 预测范围 | 可能不合理(-∞到+∞) | **符合实际约束** | | 应用场景 | 有限 | **非常广泛** | ## 🎓 一句话总结 **广义线性模型 = 用巧妙的数学转换，让线性模型能够处理分类、计数等各种非正态数据，是数据分析的"万能钥匙"。** --- ### 🔗 常见的GLM家族成员 - **线性回归**：预测连续值 - **逻辑回归**：预测概率/分类 - **泊松回归**：预测计数 - **Gamma回归**：预测正偏态连续值