# 💡 Summary | 问题类型 | 结果特点 | 用什么GLM | | ---------- | -------------- | ---------- | | 客户会不会买?| 是/否(二分类)| [[逻辑回归]] | | 网站一天访问多少次?| 计数(0,1,2,3...)| [[泊松回归]] | | 收入是多少?| 连续数值 | 普通[[线性回归]] | | | | | # 🧩 Cues # 🪞Notes # 通俗解释:广义线性模型(GLM) ## 🎯 核心思想 **普通线性模型的"升级版",能处理更多类型的数据** ## 📊 先理解普通线性模型 ### 经典线性回归的局限 ```Java 身高 = 2 × 年龄 + 100 收入 = 500 × 工作年限 + 3000 ``` **问题**:只能预测**连续数值**,且假设误差是正态分布 ## 🚀 广义线性模型的三大扩展 ### 1️⃣ **能处理不同类型的结果** | 问题类型 | 结果特点 | 用什么GLM | |---------|---------|----------| | 客户会不会买?| 是/否(二分类)| **逻辑回归** | | 网站一天访问多少次?| 计数(0,1,2,3...)| **泊松回归** | | 收入是多少?| 连续数值 | 普通线性回归 | ### 2️⃣ **使用"链接函数"做转换** #### 生活化例子:预测考试通过率 ```Java 错误做法(普通线性): 通过率 = 0.1 × 学习小时数 问题:学习100小时 → 通过率=10(超过100%了!) 正确做法(GLM逻辑回归): log(通过率/不通过率) = 0.5 × 学习小时数 结果始终在 0-100% 之间 ✓ ``` ### 3️⃣ **允许不同的误差分布** - **正态分布**:身高、体重等连续变量 - **二项分布**:成功/失败 - **泊松分布**:罕见事件计数 ## 🔧 GLM的三个组成部分 ```Java 1. 随机成分:Y的概率分布(正态/二项/泊松...) 2. 系统成分:线性预测式 (β₀ + β₁X₁ + β₂X₂...) 3. 链接函数:把两者连接起来 ``` ## 💡 实际应用场景 ### 案例1:预测点击广告(逻辑回归) ```Java 问题:用户会不会点击?(只有"点"或"不点") 模型:P(点击) = f(年龄, 收入, 浏览时长) ``` ### 案例2:预测索赔次数(泊松回归) ```Java 问题:一年内车险索赔几次?(0,1,2,3...次) 模型:索赔次数 = f(驾龄, 车龄, 地区) ``` ### 案例3:预测花费金额(Gamma回归) ```Java 问题:客户会花多少钱?(只能>0,右偏分布) 模型:花费 = f(会员等级, 历史消费, 促销力度) ``` ## ⚖️ 对比总结 | 特性 | 普通线性模型 | 广义线性模型 | |-----|------------|------------| | 结果类型 | 只能连续数值 | **各种类型** | | 误差分布 | 必须正态分布 | **多种分布** | | 预测范围 | 可能不合理(-∞到+∞) | **符合实际约束** | | 应用场景 | 有限 | **非常广泛** | ## 🎓 一句话总结 **广义线性模型 = 用巧妙的数学转换,让线性模型能够处理分类、计数等各种非正态数据,是数据分析的"万能钥匙"。** --- ### 🔗 常见的GLM家族成员 - **线性回归**:预测连续值 - **逻辑回归**:预测概率/分类 - **泊松回归**:预测计数 - **Gamma回归**:预测正偏态连续值