调整 $w$ 和 $b$(无论是通过梯度下降还是其他优化方法),目标就是让损失函数(例如均方误差)达到最小值,从而使模型对数据的拟合效果最好。
均方误差 (MSE) 的公式为:
$\text{MSE} = \frac{1}{m} \sum_{i=1}^{m} \left(y^{(i)} - \hat{y}^{(i)}\right)^2,$
其中:
- $m$ 是样本总数,
- $y^{(i)}$ 是第 $i$ 个样本的真实值,
- $\hat{y}^{(i)}$ 是模型对第 $i$ 个样本的预测值。
有时为了简化求导,会在公式前加一个 $\frac{1}{2}$ 的系数,即
$J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} \left(y^{(i)} - \hat{y}^{(i)}\right)^2.$
这两个版本本质上是一样的,都是衡量预测值与真实值之间的平均平方差。