# Summary
梯度不是"下次变化的值",而是"变化的方向和建议幅度"
实际变化量 = 学习率 × 梯度
https://zhuanlan.zhihu.com/p/414009313
## 梯度范数grad_norm
假设你在一个山谷中要走到最低点,
- 每个方向的坡度,就是不同参数的梯度;
- 把所有坡度合在一起的“陡峭程度”,就是 **[[梯度范数]]**。
| 场景 | grad_norm 大小 | 意味着 |
| -------------- | ------------ | ------------- |
| 山坡很陡 | grad_norm 很大 | 模型离最优点远,更新步子大 |
| 山坡平缓 | grad_norm 很小 | 模型快到谷底了,更新步子小 |
| grad_norm 忽大忽小 | 不稳定训练 | 学习率可能太高,或梯度爆炸 |