# Summary 在训练中怎么用? - **监控训练稳定性**: 如果 grad_norm 一直非常大 → 可能梯度爆炸; 如果一直很小 → 学习停滞。 - **[[梯度裁剪]](gradient clipping)**: 我们常设一个上限,比如: `torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)` 当梯度太大时,自动缩小到安全范围,防止训练不稳定。 ## 梯度范数grad_norm 假设你在一个山谷中要走到最低点, - 每个方向的坡度,就是不同参数的梯度; - 把所有坡度合在一起的“陡峭程度”,就是 **[[梯度范数]]**。 | 场景 | grad_norm 大小 | 意味着 | | -------------- | ------------ | ------------- | | 山坡很陡 | grad_norm 很大 | 模型离最优点远,更新步子大 | | 山坡平缓 | grad_norm 很小 | 模型快到谷底了,更新步子小 | | grad_norm 忽大忽小 | 不稳定训练 | 学习率可能太高,或梯度爆炸 | # Cues # Notes