数理统计@ - 🎯转了码的刘公子

# Summary 1. 数理统计是[[统计学@]]中的理论部分 2. 统计的核心动作是「抽取」 # Cues [《基础统计学》](《基础统计学》) 哪些统计学的书让你相见恨晚？- Psychonomist 的回答 - 知乎 https://www.zhihu.com/question/602368094/answer/3046935637 样本方差和总体方差为什么不一样？- deephub的回答 - 知乎 https://www.zhihu.com/question/1958753396388524484/answer/1959557062628471662 # Notes ## 一、知识体系 | | | | | ------------ | ------------------------------------------------------------------------ | ------------------------------------- | | | 概念 | | | 数理统计的基本概念 | 样本与总体 | 样本是小抽样像冰山一角，总体是整个大群体如整座冰山。| | | [统计量](2%20第二大脑/1%20概念/2%20抽象与价值/数学/应用数学/概率与统计/统计学/统计量.md)、[[抽样分布、统计量分布]] | 多次抽样统计量的分布，像重复实验的平均值变化图。| | | | | | **[[参数估计]]** | [[点估计]] | 库里的真实三分命中率是多少？| | | [[区间估计]] | 给参数一个范围的“安全网”，如置信区间表示可能波动。| | | 偏差 | 估计值偏离真实的“误差距离”，理想是零偏差。| | | 有效性 | 估计器在给定信息下最精确的“最佳选手”。| | | [[最大似然估计]] | 选最可能产生观测数据的参数，像侦探找最匹配证据的嫌疑人。| | | 矩方法 | 用样本矩匹配总体矩的“简单配对法”，快速估参数。| | | 贝叶斯估计 | 结合先验知识和新数据的“更新信念”方法，像用经验调整概率。| | | | | | [[假设检验]] | [[假设检验]] | 库里自称50%，信不信？| | | 零假设 | 默认“无效果”的起点，像法庭上的“无罪推定”。| | | 备择假设 | 你想证明的“有效果”备选，像法庭上的“有罪”。| | | p值 | 假设零假设下观测数据的极端概率，像证据的“可疑度”。| | | [[置信水平]] | 95% | | | [[显著性水平]] | α=1−0.95=0.05α=1−0.95=0.05 （不确定的部分）| | | [[t检验]] | 比较均值的工具，像小样本下的“学生版”z检验。| | | [[卡方检验、χ²检验]] | 检查分类数据拟合或独立的“计数器”，像检查骰子是否公平。| | | [[F检验]] | 比较方差或模型的“比率测试”，常用于回归。| | | 拟合优度测试 | 检查数据是否匹配假设分布的“试衣镜”。| | | | | | 高级应用 | [[线性回归]] | 用直线拟合变量关系的“趋势线绘制器”。| | | 多重回归 | 多个预测变量的扩展版，像多因素影响房价的模型。| | | ANOVA | 比较多组均值的“方差分解器”，像测试不同肥料对作物的效果。| | | [[广义线性模型]] | 线性回归的泛化版，适用于非正态响应如计数数据。| | | 模型诊断 | 检查模型假设是否成立的“健康检查”，如看残差。| | | [[主成分分析（PCA）]] | 降维数据精华的“压缩机”，提取主要变异方向。| | | [[非参数统计]] | 核密度估计、秩检验、样条回归 | | | [[时间序列分析]]、谱分析 | [[ARMA]]/ARIMA、GARCH、协整——应用面向经济、金融、信号 | | | [[蒙特卡洛模拟]] | 用随机采样模拟复杂系统的“赌场方法”。| | | [[Bootstrap]]方法 | 从样本重采样估不确定性的“自举法”，像用自身数据“拉自己起来”。| | | | | | | | | # 概率分布对照表 “数理统计 for 工程 + AI PM”学习地图（按作用分层） ## I. 决策与不确定性（必修 20% 撬动 80% 价值） • 概率与期望：[[条件概率]]、[[贝叶斯公式]]、[[方差分解]]（bias–variance）。 • 常见[[概率分布]]：[[伯努利分布、01分布]] -> [[二项分布]]、[[泊松分布]]/负二项、正态、对数正态、Gamma/Beta。 • [[置信区间]]与[[假设检验]]：[[t 检验]]/[[Z检验]]、[[卡方检验、χ²检验]]、[[非参数检验]]（Mann–Whitney、KS）。 • 重采样：[[Bootstrap]]（区间与不确定性评估的通用工具）。 • 多重检验：Bonferroni、Benjamini–Hochberg(FDR)。 • 功效分析（Power & Sample Size）：上线前给出需要多少样本、多快能做出可信决策。 ## II. 实验与在线评估（你的核心战场） • A/B 设计：随机化、分层/触发分析、SRM 检测、方差缩减（如 [[CUPED]]）。 • 顺序/早停：Alpha spending、SPRT；或用贝叶斯 A/B以更直观地表达不确定性。 • Bandit 与探索/利用：ε-greedy、UCB、Thompson；理解与 A/B 的取舍。 • 指标体系：均值 vs [[P95]]/P99、稳健统计（中位数、Huber 损失）、OEC 设计。 ## III. 回归与[[广义线性模型]]（GLM） • [[线性回归]]/[[逻辑回归LR]]、泊松/负二项回归（计数/转化/留存场景常用）。 • 正则化（L1/L2）与解释：区分“相关”与“因果”。 ## IV. 因果推断（从“相关好看”到“真正有效”） • 因果图（DAG）、背门准则、倾向得分（匹配/加权）、双重稳健。 • 差分中的差分（DiD）、回归不连续、工具变量（IV）、合成控制。 • 何时必须 RCT，何时用准实验。 ## V. 时间序列与流式分析 • 平稳性/季节性、ARIMA/ETS 基础；变点检测、控制图。 • 流式分位数/草图（t-digest/KLL）与在线指标；概念漂移检测（Page-Hinkley/ADWIN 思想）。 ## VI. 贝叶斯视角（把“直觉”变成“先验”） • 先验/似然/后验、可交换/层级模型、可信区间 vs 置信区间。 • 实用路线：从共轭先验到 PyMC/NumPyro 的小型建模。 ⸻ 你可以立刻落地的 5 个微项目 1. 样本量计算器：输入期望提升、基线转化率、α/1−β，输出每组样本量；再用蒙特卡洛验证功效。 2. A/B 实验分析器：自动做 SRM 检查、主指标置信区间、次指标 FDR 控制；报告同时给出效应量与最小可检测效应（MDE）。 3. 顺序检验/早停策略：实现一版固定宽度的置信区间或贝叶斯后验阈值，观察“更快得出结论”的风险与收益。 4. 稳健指标替换：把平均响应时间换成 P95/P99 和中位数 + MAD，看看告警与优先级如何重排。 5. 准实验评估：用历史日志做一次 DiD 或倾向得分加权，评估“个性化行程推荐”对 7 日留存的真实影响。 ⸻ 常见误区速查 • p 值 < 0.05 ≠ 业务有效；看效应量与区间。 • 多指标多分组不做 FDR → 假阳性激增。 • 均值代替分布 → 被长尾/极端值欺骗。 • 线上实验未触发分析、SRM 未监控 → 结果失真。 • 把相关当因果 → 上线无增益甚至负收益。