梯度范数 - 🎯转了码的刘公子

# Summary 在训练中怎么用？ - **监控训练稳定性**：如果 grad_norm 一直非常大 → 可能梯度爆炸；如果一直很小 → 学习停滞。 - **[[梯度裁剪]]（gradient clipping）**：我们常设一个上限，比如： `torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)` 当梯度太大时，自动缩小到安全范围，防止训练不稳定。 ## 梯度范数grad_norm 假设你在一个山谷中要走到最低点， - 每个方向的坡度，就是不同参数的梯度； - 把所有坡度合在一起的“陡峭程度”，就是 **[[梯度范数]]**。 | 场景 | grad_norm 大小 | 意味着 | | -------------- | ------------ | ------------- | | 山坡很陡 | grad_norm 很大 | 模型离最优点远，更新步子大 | | 山坡平缓 | grad_norm 很小 | 模型快到谷底了，更新步子小 | | grad_norm 忽大忽小 | 不稳定训练 | 学习率可能太高，或梯度爆炸 | # Cues # Notes