# Summary # Cues # Notes 你这个问题是“概率 vs 似然”概念混淆的经典变体。🙂 ## 似然(likelihood)的严格定义 给定一个统计模型 $X\sim f(x\mid \theta)$(离散用 pmf、连续用 pdf),当我们**已经观察到数据** $x$ 时,把 $x$ 当作常数、把参数 $\theta$ 当作变量,定义 $\boxed{L(\theta\mid x)=f(x\mid \theta)}$ 这叫**似然函数**。它衡量“在参数取某个值时,观察到这份数据的支持力度”。 > 关键点:似然是**关于参数的函数**,不是对参数的概率;因此它不需要、也通常**不能**像概率那样和为 1(连续情形甚至可以大于 1)。 ## 和“概率”的区别(一句话版) - 概率:$\;P(X=x\mid \theta)$——把**数据**当变量、$\theta$ 当常数。 - 似然:$\;L(\theta\mid x)$——把**参数**当变量、$x$ 当常数。 - 只要做参数比较,常与 $\theta$ 无关的比例常数可忽略,故常写 $L(\theta\mid x)\propto f(x\mid \theta)$。 ## 常用性质 - **独立样本乘积**:若 $x_1,\dots,x_n$ 独立, $L(\theta\mid x_{1:n})=\prod_{i=1}^n f(x_i\mid \theta),\quad \ell(\theta)=\log L(\theta)=\sum_{i=1}^n \log f(x_i\mid \theta)$ - **极大似然估计(MLE)**:$\hat\theta=\arg\max_\theta L(\theta\mid x)$(或最大化对数似然 $\ell$)。 - **贝叶斯后验**:$\;\pi(\theta\mid x)\propto L(\theta\mid x)\,\pi(\theta)$(后验 $\propto$ 先验 $\times$ 似然)。 - **似然比**:$\; \dfrac{L(\theta_1\mid x)}{L(\theta_2\mid x)}$ 比较数据对两个参数的相对支持。 ## 结合你之前的“骰子”例子 若掷 $n$ 次,观察到出“6”共 $k$ 次,把“是否为 6”视作[伯努利分布、01分布](伯努利分布、01分布.md)模型,参数为 $p=P(\text{掷出6}\mid \theta)$。则 $L(p\mid k,n)=p^{\,k}(1-p)^{\,n-k}.$ 比较“公平骰 $p=\frac16$”与“作弊骰 $p=0.5$”时,就是比较两点的似然值或它们的**似然比**。而用贝叶斯法时:后验 $\propto$ 先验 $\times$ 似然。 > 小提示:严格说法应是“**似然函数**”,而不是“似然概率”。如果你看到“似然概率”,十有八九是在口语里把两个概念混用了。