# Summary 1. 数理统计是[[统计学@]]中的理论部分 2. 统计的核心动作是「抽取」 # Cues [《基础统计学》](《基础统计学》) 哪些统计学的书让你相见恨晚?- Psychonomist 的回答 - 知乎 https://www.zhihu.com/question/602368094/answer/3046935637 样本方差和总体方差为什么不一样?- deephub的回答 - 知乎 https://www.zhihu.com/question/1958753396388524484/answer/1959557062628471662 # Notes ## 一、知识体系 | | | | | ------------ | ------------------------------------------------------------------------ | ------------------------------------- | | | 概念 | | | 数理统计的基本概念 | 样本与总体 | 样本是小抽样像冰山一角,总体是整个大群体如整座冰山。| | | [统计量](2%20第二大脑/1%20概念/2%20抽象与价值/数学/应用数学/概率与统计/统计学/统计量.md)、[[抽样分布、统计量分布]] | 多次抽样统计量的分布,像重复实验的平均值变化图。| | | | | | **[[参数估计]]** | [[点估计]] | 库里的真实三分命中率是多少?| | | [[区间估计]] | 给参数一个范围的“安全网”,如置信区间表示可能波动。| | | 偏差 | 估计值偏离真实的“误差距离”,理想是零偏差。| | | 有效性 | 估计器在给定信息下最精确的“最佳选手”。| | | [[最大似然估计]] | 选最可能产生观测数据的参数,像侦探找最匹配证据的嫌疑人。| | | 矩方法 | 用样本矩匹配总体矩的“简单配对法”,快速估参数。| | | 贝叶斯估计 | 结合先验知识和新数据的“更新信念”方法,像用经验调整概率。| | | | | | [[假设检验]] | [[假设检验]] | 库里自称50%,信不信?| | | 零假设 | 默认“无效果”的起点,像法庭上的“无罪推定”。| | | 备择假设 | 你想证明的“有效果”备选,像法庭上的“有罪”。| | | p值 | 假设零假设下观测数据的极端概率,像证据的“可疑度”。| | | [[置信水平]] | 95% | | | [[显著性水平]] | α=1−0.95=0.05α=1−0.95=0.05 (不确定的部分)| | | [[t检验]] | 比较均值的工具,像小样本下的“学生版”z检验。| | | [[卡方检验、χ²检验]] | 检查分类数据拟合或独立的“计数器”,像检查骰子是否公平。| | | [[F检验]] | 比较方差或模型的“比率测试”,常用于回归。| | | 拟合优度测试 | 检查数据是否匹配假设分布的“试衣镜”。| | | | | | 高级应用 | [[线性回归]] | 用直线拟合变量关系的“趋势线绘制器”。| | | 多重回归 | 多个预测变量的扩展版,像多因素影响房价的模型。| | | ANOVA | 比较多组均值的“方差分解器”,像测试不同肥料对作物的效果。| | | [[广义线性模型]] | 线性回归的泛化版,适用于非正态响应如计数数据。| | | 模型诊断 | 检查模型假设是否成立的“健康检查”,如看残差。| | | [[主成分分析(PCA)]] | 降维数据精华的“压缩机”,提取主要变异方向。| | | [[非参数统计]] | 核密度估计、秩检验、样条回归 | | | [[时间序列分析]]、谱分析 | [[ARMA]]/ARIMA、GARCH、协整——应用面向经济、金融、信号 | | | [[蒙特卡洛模拟]] | 用随机采样模拟复杂系统的“赌场方法”。| | | [[Bootstrap]]方法 | 从样本重采样估不确定性的“自举法”,像用自身数据“拉自己起来”。| | | | | | | | | # 概率分布对照表 “数理统计 for 工程 + AI PM”学习地图(按作用分层) ## I. 决策与不确定性(必修 20% 撬动 80% 价值) • 概率与期望:[[条件概率]]、[[贝叶斯公式]]、[[方差分解]](bias–variance)。 • 常见[[概率分布]]:[[伯努利分布、01分布]] -> [[二项分布]]、[[泊松分布]]/负二项、正态、对数正态、Gamma/Beta。 • [[置信区间]]与[[假设检验]]:[[t 检验]]/[[Z检验]]、[[卡方检验、χ²检验]]、[[非参数检验]](Mann–Whitney、KS)。 • 重采样:[[Bootstrap]](区间与不确定性评估的通用工具)。 • 多重检验:Bonferroni、Benjamini–Hochberg(FDR)。 • 功效分析(Power & Sample Size):上线前给出需要多少样本、多快能做出可信决策。 ## II. 实验与在线评估(你的核心战场) • A/B 设计:随机化、分层/触发分析、SRM 检测、方差缩减(如 [[CUPED]])。 • 顺序/早停:Alpha spending、SPRT;或用贝叶斯 A/B以更直观地表达不确定性。 • Bandit 与探索/利用:ε-greedy、UCB、Thompson;理解与 A/B 的取舍。 • 指标体系:均值 vs [[P95]]/P99、稳健统计(中位数、Huber 损失)、OEC 设计。 ## III. 回归与[[广义线性模型]](GLM) • [[线性回归]]/[[逻辑回归LR]]、泊松/负二项回归(计数/转化/留存场景常用)。 • 正则化(L1/L2)与解释:区分“相关”与“因果”。 ## IV. 因果推断(从“相关好看”到“真正有效”) • 因果图(DAG)、背门准则、倾向得分(匹配/加权)、双重稳健。 • 差分中的差分(DiD)、回归不连续、工具变量(IV)、合成控制。 • 何时必须 RCT,何时用准实验。 ## V. 时间序列与流式分析 • 平稳性/季节性、ARIMA/ETS 基础;变点检测、控制图。 • 流式分位数/草图(t-digest/KLL)与在线指标;概念漂移检测(Page-Hinkley/ADWIN 思想)。 ## VI. 贝叶斯视角(把“直觉”变成“先验”) • 先验/似然/后验、可交换/层级模型、可信区间 vs 置信区间。 • 实用路线:从共轭先验到 PyMC/NumPyro 的小型建模。 ⸻ 你可以立刻落地的 5 个微项目 1. 样本量计算器:输入期望提升、基线转化率、α/1−β,输出每组样本量;再用蒙特卡洛验证功效。 2. A/B 实验分析器:自动做 SRM 检查、主指标置信区间、次指标 FDR 控制;报告同时给出效应量与最小可检测效应(MDE)。 3. 顺序检验/早停策略:实现一版固定宽度的置信区间或贝叶斯后验阈值,观察“更快得出结论”的风险与收益。 4. 稳健指标替换:把平均响应时间换成 P95/P99 和中位数 + MAD,看看告警与优先级如何重排。 5. 准实验评估:用历史日志做一次 DiD 或倾向得分加权,评估“个性化行程推荐”对 7 日留存的真实影响。 ⸻ 常见误区速查 • p 值 < 0.05 ≠ 业务有效;看效应量与区间。 • 多指标多分组不做 FDR → 假阳性激增。 • 均值代替分布 → 被长尾/极端值欺骗。 • 线上实验未触发分析、SRM 未监控 → 结果失真。 • 把相关当因果 → 上线无增益甚至负收益。