# 💡 Summary
| 问题类型 | 结果特点 | 用什么GLM |
| ---------- | -------------- | ---------- |
| 客户会不会买?| 是/否(二分类)| [[逻辑回归]] |
| 网站一天访问多少次?| 计数(0,1,2,3...)| [[泊松回归]] |
| 收入是多少?| 连续数值 | 普通[[线性回归]] |
| | | |
# 🧩 Cues
# 🪞Notes
# 通俗解释:广义线性模型(GLM)
## 🎯 核心思想
**普通线性模型的"升级版",能处理更多类型的数据**
## 📊 先理解普通线性模型
### 经典线性回归的局限
```Java
身高 = 2 × 年龄 + 100
收入 = 500 × 工作年限 + 3000
```
**问题**:只能预测**连续数值**,且假设误差是正态分布
## 🚀 广义线性模型的三大扩展
### 1️⃣ **能处理不同类型的结果**
| 问题类型 | 结果特点 | 用什么GLM |
|---------|---------|----------|
| 客户会不会买?| 是/否(二分类)| **逻辑回归** |
| 网站一天访问多少次?| 计数(0,1,2,3...)| **泊松回归** |
| 收入是多少?| 连续数值 | 普通线性回归 |
### 2️⃣ **使用"链接函数"做转换**
#### 生活化例子:预测考试通过率
```Java
错误做法(普通线性):
通过率 = 0.1 × 学习小时数
问题:学习100小时 → 通过率=10(超过100%了!)
正确做法(GLM逻辑回归):
log(通过率/不通过率) = 0.5 × 学习小时数
结果始终在 0-100% 之间 ✓
```
### 3️⃣ **允许不同的误差分布**
- **正态分布**:身高、体重等连续变量
- **二项分布**:成功/失败
- **泊松分布**:罕见事件计数
## 🔧 GLM的三个组成部分
```Java
1. 随机成分:Y的概率分布(正态/二项/泊松...)
2. 系统成分:线性预测式 (β₀ + β₁X₁ + β₂X₂...)
3. 链接函数:把两者连接起来
```
## 💡 实际应用场景
### 案例1:预测点击广告(逻辑回归)
```Java
问题:用户会不会点击?(只有"点"或"不点")
模型:P(点击) = f(年龄, 收入, 浏览时长)
```
### 案例2:预测索赔次数(泊松回归)
```Java
问题:一年内车险索赔几次?(0,1,2,3...次)
模型:索赔次数 = f(驾龄, 车龄, 地区)
```
### 案例3:预测花费金额(Gamma回归)
```Java
问题:客户会花多少钱?(只能>0,右偏分布)
模型:花费 = f(会员等级, 历史消费, 促销力度)
```
## ⚖️ 对比总结
| 特性 | 普通线性模型 | 广义线性模型 |
|-----|------------|------------|
| 结果类型 | 只能连续数值 | **各种类型** |
| 误差分布 | 必须正态分布 | **多种分布** |
| 预测范围 | 可能不合理(-∞到+∞) | **符合实际约束** |
| 应用场景 | 有限 | **非常广泛** |
## 🎓 一句话总结
**广义线性模型 = 用巧妙的数学转换,让线性模型能够处理分类、计数等各种非正态数据,是数据分析的"万能钥匙"。**
---
### 🔗 常见的GLM家族成员
- **线性回归**:预测连续值
- **逻辑回归**:预测概率/分类
- **泊松回归**:预测计数
- **Gamma回归**:预测正偏态连续值