# Summary
1. 数理统计是[[统计学@]]中的理论部分
2. 统计的核心动作是「抽取」
# Cues
[《基础统计学》](《基础统计学》)
哪些统计学的书让你相见恨晚?- Psychonomist 的回答 - 知乎
https://www.zhihu.com/question/602368094/answer/3046935637
样本方差和总体方差为什么不一样?- deephub的回答 - 知乎
https://www.zhihu.com/question/1958753396388524484/answer/1959557062628471662
# Notes
## 一、知识体系
| | | |
| ------------ | ------------------------------------------------------------------------ | ------------------------------------- |
| | 概念 | |
| 数理统计的基本概念 | 样本与总体 | 样本是小抽样像冰山一角,总体是整个大群体如整座冰山。|
| | [统计量](2%20第二大脑/1%20概念/2%20抽象与价值/数学/应用数学/概率与统计/统计学/统计量.md)、[[抽样分布、统计量分布]] | 多次抽样统计量的分布,像重复实验的平均值变化图。|
| | | |
| **[[参数估计]]** | [[点估计]] | 库里的真实三分命中率是多少?|
| | [[区间估计]] | 给参数一个范围的“安全网”,如置信区间表示可能波动。|
| | 偏差 | 估计值偏离真实的“误差距离”,理想是零偏差。|
| | 有效性 | 估计器在给定信息下最精确的“最佳选手”。|
| | [[最大似然估计]] | 选最可能产生观测数据的参数,像侦探找最匹配证据的嫌疑人。|
| | 矩方法 | 用样本矩匹配总体矩的“简单配对法”,快速估参数。|
| | 贝叶斯估计 | 结合先验知识和新数据的“更新信念”方法,像用经验调整概率。|
| | | |
| [[假设检验]] | [[假设检验]] | 库里自称50%,信不信?|
| | 零假设 | 默认“无效果”的起点,像法庭上的“无罪推定”。|
| | 备择假设 | 你想证明的“有效果”备选,像法庭上的“有罪”。|
| | p值 | 假设零假设下观测数据的极端概率,像证据的“可疑度”。|
| | [[置信水平]] | 95% |
| | [[显著性水平]] | α=1−0.95=0.05α=1−0.95=0.05 (不确定的部分)|
| | [[t检验]] | 比较均值的工具,像小样本下的“学生版”z检验。|
| | [[卡方检验、χ²检验]] | 检查分类数据拟合或独立的“计数器”,像检查骰子是否公平。|
| | [[F检验]] | 比较方差或模型的“比率测试”,常用于回归。|
| | 拟合优度测试 | 检查数据是否匹配假设分布的“试衣镜”。|
| | | |
| 高级应用 | [[线性回归]] | 用直线拟合变量关系的“趋势线绘制器”。|
| | 多重回归 | 多个预测变量的扩展版,像多因素影响房价的模型。|
| | ANOVA | 比较多组均值的“方差分解器”,像测试不同肥料对作物的效果。|
| | [[广义线性模型]] | 线性回归的泛化版,适用于非正态响应如计数数据。|
| | 模型诊断 | 检查模型假设是否成立的“健康检查”,如看残差。|
| | [[主成分分析(PCA)]] | 降维数据精华的“压缩机”,提取主要变异方向。|
| | [[非参数统计]] | 核密度估计、秩检验、样条回归 |
| | [[时间序列分析]]、谱分析 | [[ARMA]]/ARIMA、GARCH、协整——应用面向经济、金融、信号 |
| | [[蒙特卡洛模拟]] | 用随机采样模拟复杂系统的“赌场方法”。|
| | [[Bootstrap]]方法 | 从样本重采样估不确定性的“自举法”,像用自身数据“拉自己起来”。|
| | | |
| | | |
# 概率分布对照表
“数理统计 for 工程 + AI PM”学习地图(按作用分层)
## I. 决策与不确定性(必修 20% 撬动 80% 价值)
• 概率与期望:[[条件概率]]、[[贝叶斯公式]]、[[方差分解]](bias–variance)。
• 常见[[概率分布]]:[[伯努利分布、01分布]] -> [[二项分布]]、[[泊松分布]]/负二项、正态、对数正态、Gamma/Beta。
• [[置信区间]]与[[假设检验]]:[[t 检验]]/[[Z检验]]、[[卡方检验、χ²检验]]、[[非参数检验]](Mann–Whitney、KS)。
• 重采样:[[Bootstrap]](区间与不确定性评估的通用工具)。
• 多重检验:Bonferroni、Benjamini–Hochberg(FDR)。
• 功效分析(Power & Sample Size):上线前给出需要多少样本、多快能做出可信决策。
## II. 实验与在线评估(你的核心战场)
• A/B 设计:随机化、分层/触发分析、SRM 检测、方差缩减(如 [[CUPED]])。
• 顺序/早停:Alpha spending、SPRT;或用贝叶斯 A/B以更直观地表达不确定性。
• Bandit 与探索/利用:ε-greedy、UCB、Thompson;理解与 A/B 的取舍。
• 指标体系:均值 vs [[P95]]/P99、稳健统计(中位数、Huber 损失)、OEC 设计。
## III. 回归与[[广义线性模型]](GLM)
• [[线性回归]]/[[逻辑回归LR]]、泊松/负二项回归(计数/转化/留存场景常用)。
• 正则化(L1/L2)与解释:区分“相关”与“因果”。
## IV. 因果推断(从“相关好看”到“真正有效”)
• 因果图(DAG)、背门准则、倾向得分(匹配/加权)、双重稳健。
• 差分中的差分(DiD)、回归不连续、工具变量(IV)、合成控制。
• 何时必须 RCT,何时用准实验。
## V. 时间序列与流式分析
• 平稳性/季节性、ARIMA/ETS 基础;变点检测、控制图。
• 流式分位数/草图(t-digest/KLL)与在线指标;概念漂移检测(Page-Hinkley/ADWIN 思想)。
## VI. 贝叶斯视角(把“直觉”变成“先验”)
• 先验/似然/后验、可交换/层级模型、可信区间 vs 置信区间。
• 实用路线:从共轭先验到 PyMC/NumPyro 的小型建模。
⸻
你可以立刻落地的 5 个微项目
1. 样本量计算器:输入期望提升、基线转化率、α/1−β,输出每组样本量;再用蒙特卡洛验证功效。
2. A/B 实验分析器:自动做 SRM 检查、主指标置信区间、次指标 FDR 控制;报告同时给出效应量与最小可检测效应(MDE)。
3. 顺序检验/早停策略:实现一版固定宽度的置信区间或贝叶斯后验阈值,观察“更快得出结论”的风险与收益。
4. 稳健指标替换:把平均响应时间换成 P95/P99 和中位数 + MAD,看看告警与优先级如何重排。
5. 准实验评估:用历史日志做一次 DiD 或倾向得分加权,评估“个性化行程推荐”对 7 日留存的真实影响。
⸻
常见误区速查
• p 值 < 0.05 ≠ 业务有效;看效应量与区间。
• 多指标多分组不做 FDR → 假阳性激增。
• 均值代替分布 → 被长尾/极端值欺骗。
• 线上实验未触发分析、SRM 未监控 → 结果失真。
• 把相关当因果 → 上线无增益甚至负收益。