# Summary
在训练中怎么用?
- **监控训练稳定性**:
如果 grad_norm 一直非常大 → 可能梯度爆炸;
如果一直很小 → 学习停滞。
- **[[梯度裁剪]](gradient clipping)**:
我们常设一个上限,比如:
`torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)`
当梯度太大时,自动缩小到安全范围,防止训练不稳定。
## 梯度范数grad_norm
假设你在一个山谷中要走到最低点,
- 每个方向的坡度,就是不同参数的梯度;
- 把所有坡度合在一起的“陡峭程度”,就是 **[[梯度范数]]**。
| 场景 | grad_norm 大小 | 意味着 |
| -------------- | ------------ | ------------- |
| 山坡很陡 | grad_norm 很大 | 模型离最优点远,更新步子大 |
| 山坡平缓 | grad_norm 很小 | 模型快到谷底了,更新步子小 |
| grad_norm 忽大忽小 | 不稳定训练 | 学习率可能太高,或梯度爆炸 |
# Cues
# Notes