**总结一下最大似然估计的步骤:**
1. **确定模型:** 也就是知道数据服从什么分布(比如上面的例子中,我们假设每次抛硬币是独立的伯努利分布)。
2. **写出似然函数:** 用公式表示在给定参数下,观测数据出现的概率。
3. **求解最大值:** 通常通过取对数、求导等方法找到使似然函数最大的参数值。
好的,我来用形象的方式解释一下什么是最大似然估计(Maximum Likelihood Estimation,MLE)。
**打个比方:**
想象一下,你和朋友在玩一个猜硬币的游戏。你朋友拿出一个硬币,你不知道这个硬币是不是均匀的(也就是正反面出现的概率是不是都是50%)。你们抛了几次硬币,结果是:
- 抛了10次
- 其中7次是正面朝上
- 3次是反面朝上
现在,你需要根据这个结果来猜测:这个硬币是正面朝上的概率(我们用 θ 来表示)。
**最大似然估计的思想就是:**
既然我们观测到了"7次正面,3次反面"这个结果,那么我们就应该认为,使得这个结果最有可能发生的 θ 值,就是最合理的猜测。
也就是说,我们要找到一个 θ 值,使得"在 θ 的情况下,抛10次硬币出现7次正面"的概率最大。
**具体怎么做呢?**
我们可以用一个公式来表示"在 θ 的情况下,抛10次硬币出现7次正面"的概率,这个公式叫做**似然函数**:
L(θ) = C(10, 7) * θ^7 * (1-θ)^3
其中:
- C(10, 7) 是组合数,表示从10次中选7次的组合方式。
- θ^7 表示正面朝上的概率的7次方。
- (1-θ)^3 表示反面朝上的概率的3次方。
我们的目标是找到一个 θ 值,使得 L(θ) 最大。
**怎么找到最大值呢?**
通常我们会对似然函数取对数(因为对数函数是单调递增的,所以最大值的位置不变),然后求导,令导数为0,解出 θ。
在这个例子中,通过计算可以得出,当 θ = 0.7 时,L(θ) 最大。
**结论:**
根据最大似然估计,我们猜测这个硬币正面朝上的概率是 0.7,也就是70%。
**最大似然估计的用途:**
最大似然估计是统计学中一种常用的[[2 第二大脑/1 概念/形式科学、数学科学/数学/参数估计]]方法,广泛应用于机器学习、信号处理、生物统计等领域。比如:
- 在机器学习中,可以用来估计模型中的参数,比如线性回归、逻辑回归等。
- 在信号处理中,可以用来估计信号的频率、幅度等。
希望通过这个例子,你能够对最大似然估计有一个更形象的理解。
**补充说明:**
- 最大似然估计是一种**频率学派**的估计方法,它认为参数是固定的,只是我们不知道它的值。
- 与最大似然估计相对的是**贝叶斯估计**,它认为参数也是随机变量,服从一定的分布。
希望以上解释能够帮助你理解最大似然估计。如果还有其他问题,欢迎继续提问。
___
# Maximum Likelihood Estimation (MLE)
MLE应该是所有上过入门统计课或者是机器学习课程的同学们都接触过的概念。其核心想法是在估计参数 $\theta$ 的时候,选择一个能使得数据发生可能性最大的参数作为估计值。对于一个线性回归模型,我们有:
$
\hat{\theta} = \text{argmax}_{\theta \in \Theta} \prod_{i=1}^N P(x_i \mid \theta)
$
(ordinary least squares,OLS)是参数估计中的一个常用方法(尤其是在各种线性回归当中)。对于线性回归,OLS告诉我们 $\beta$ 服从一个多元正态分布的时候(即 $y \mid X \sim N(X\beta, \sigma^2I)$), MLE其实与OLS是等价的。
MLE与(ordinary least squares,OLS)
(ordinary least squares,OLS)是参数估计中的一个常用方法(尤其是在各种线性回归当中)。对于线性回归,OLS告诉我们 $\beta$ 服从一个多元正态分布的时候(即 $y\mid X\sim N(X\beta,\sigma^2I)$), MLE其实等价于OLS。
MLE与KL散度(Kullback-Leibler divergence)的关系:
KL散度(Kullback-Leibler Divergence)常用于衡量两个概率分布之间的差异,对于两个离散分布P和Q,P相对于Q的KL Divergence定义为:
$
D_{\mathrm{KL}}(P \| Q)=-\sum_{i} P(i) \ln Q(i)
$
实际上,当我们最大化似然函数的时候,等价于最小化KL散度。
MLE与AIC:
AIC是用来估计数据生成过程(data generating process)与拟合模型之间的KL散度期望值,常用于模型选择。AIC定义为:
$
AIC = 2k - 2\ln(L)
$
AIC的出现其实是源自于KL散度的推广。当在选择使用MLE估计模型的时候,AIC或者BIC都是常见模型选择标准。
顺便夹带私货插播一则关于AIC的小故事:
CRLB说明了对于某个未知固定参数的无偏统计量(unbiased estimator),其方差不会小于其费希尔信息(Fisher information)的倒数。利用费希尔信息的定义,我们可以证明当数据趋近于无穷的时候,MLE估计量会达到CRLB的下界,且:
$\sqrt{n}(\hat{\theta}-\theta) \rightarrow N_k(0, \mathcal{F}_1^{-1})$
参考
1. Hayashi, Fumio (2000). Econometrics. Princeton University Press. p49.
2. Deep Learning Ch. 5 Machine Learning Basics. p128-129
3. M. Mattheakis, P. Protopapas. CS 109A: Advanced Topics in Data Science: Model Selection & Information Criteria: Akaike Information Criterion
4. Akaike, H. (1973), "Information theory and an extension of the maximum likelihood principle", in Petrov, B. N.; Csáki, F. (eds.), September 2-8, 1971, Budapest: Akadémiai Kiadó.
5. Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. The elements of statistical learning. Springer series in statistics, 2016. p233