# Summary ```Java 1. 建立假设:写出 H₀ 与 H₁ 2. 选检验类型:t / Z / χ² / ANOVA / 非参数 … 3. 设显著性水平 α(先定规矩) 4. 计算检验统计量 & p 值 5. 做决策:p ≤ α → 拒绝 H₀;否则保留 H₀ 并报告效应大小 + 置信区间 ``` > **口诀**:写假设→选检验→定 α→算 p→判结果。 # Cues | 检验类型 | 典型应用场景(列出 5 个)| | -------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | | **[[t 检验]]**(小样本、正态、比较均值)| 1. 咖啡店取 10 位顾客停留时间,判断平均停留是否 > 15 分钟(单样本 t)。<br>2. A/B 两组各 20 名用户的日均使用时长是否不同(独立两样本 t)。<br>3. 同一批学生考试前后成绩差异(配对 t)。<br>4. 小批次药丸含量是否达标,与 100 mg 标准比较(单样本 t)。<br>5. 两家健身房 15 台跑步机每天能耗均值是否一致(独立两样本 t)。| | **χ² 检验**(分类频数,拟合优度 / 独立性)| 1. 掷骰 60 次观察 1–6 点数分布,检验是否公平(拟合优度)。<br>2. 问卷统计性别 × 是否购买会员,判断性别与购买行为是否独立(列联表)。<br>3. 网站 3 种按钮颜色点击次数,检验点击率是否等概率(拟合优度)。<br>4. 病人分四年龄段 × 是否患某病,检验年龄与发病独立性(列联表)。<br>5. 电商平台 5 个类目投诉数量是否与销量占比一致(拟合优度)。| | **F 检验 / 单因子 ANOVA**(比较两方差或多组均值)| 1. 两条生产线各抽 12 件产品重量方差比(F 方差比检验)。<br>2. 三种肥料对作物产量的均值差异(单因子 ANOVA)。<br>3. 四款广告素材 CPM 均值是否有显著差别(ANOVA)。<br>4. 甲乙两品牌手机电池寿命方差是否相等(F 检验)。<br>5. 不同温度下 5 批化学反应产率均值比较(ANOVA)。| | **Z 检验**(大样本均值或比例)| 1. 日活 5000 人的 APP,平均会话时长是否 > 3 分钟(单样本 Z)。<br>2. 邮件 2000 封打开率是否超过 25 %(单样本比例 Z)。<br>3. A/B 实验各 1500 人点击率差异(两比例 Z)。<br>4. 物流中心 100 条配送平均延时是否达标(单样本 Z)。<br>5. 连续 60 天网站 PV 均值与去年同期比较(两独立样本 Z)。| | **非参数秩检验**(分布不明或严重偏态)| 1. 两款 UI 界面加载时间分布偏右,比较中位数用 Mann–Whitney U。2. 用户满意度 Likert 1–5 分,前后测差异用 Wilcoxon 符号秩。3. 三种搜索排序策略点击深度比较用 Kruskal‑Wallis。4. 十家公司市值排序对比历史中位数用 单样本 Wilcoxon。5. 医疗影像评分(0–10 离散且偏态)两医生组差异用 Mann–Whitney U。| > - **阅读技巧**:先选“检验类型”→ 找对“前提条件”→ 对号入座场景。 > > - 各检验的核心公式、p 值解释与前提检验可参考前述说明或统计教材。 下面按 **“概念 → 操作流程 → 常见检验 → 易犯误区”** 四大板块,把假设检验从 0 到 1 讲清。配合思维导图式层次结构,读完即可自己动手跑一次 t 检验 / 卡方检验。 --- ## 一、核心概念 |术语|通俗理解| |---|---| |**原假设 H₀**|“一切如常”的基准说法;例如“新药与旧药疗效相同”。| |**备择假设 H₁**|与 H₀ 相对,通常是我们真正想证明的,如“新药更有效”。| |**显著性水平 α**|接受“误判无差别”为代价的阈值,常取 0.05。| |**检验统计量**|把样本数据转成一个可查分布的数字,如 t、χ²、F。| |**p 值**|在 H₀ 为真时,观测到至少这么极端数据的概率。| |**拒绝域**|当检验统计量落在这里,就“拒绝 H₀”。| |**第一类错误 (α)**|误把真 H₀ 拒绝;“冤枉了无差别”。| |**第二类错误 (β)**|误把假 H₀ 接受;“错过了真差异”。| |**检验功效 (1‑β)**|发现真差异的能力;越高越好。| --- --- ## 三、常见检验全景图 |目标|数据条件|检验统计量|示例问题| |---|---|---|---| |**均值**|小样本、σ² 未知|**t**|A/B 两组平均停留时长是否不同?| ||样本 > 30 或 σ² 已知|**Z**|产品日均访问量是否高于 1 万?| |**比例**|样本量足够|Z (二项近似正态)|电邮打开率是否超 25%?| |**方差**|正态、独立|**F**|两条生产线质量波动是否一致?| |**独立性**|分类数据|**χ²**|性别与购车意向是否相关?| |**分布拟合**|分类频数|χ²|投点游戏结果符合均匀分布吗?| |**中位数 / 配对差**|非正态或秩数据|**Wilcoxon** / **Mann‑Whitney**|新 UI 布局对点击深度有没有提升?| |**多组均值**|正态、方差齐|**单因子 ANOVA**|三种肥料产量是否存在差异?| > ⚠️ **前提检验**:t 检验默认正态、方差齐;若不满足,可转非参数检验或做变换。 --- ## 四、深入理解 p 值与置信区间 1. **p 值小** → 数据在 H₀ 视角下“很罕见” → 拒绝 H₀。 - p = 0.03 (< 0.05):换成日常话就是“在 H₀ 成立时只有 3% 的概率出现当前或更极端的样本”。 2. **置信区间 (CI)** 同步报告可量化效应大小。 - 例:差异均值 = 2.1 秒,95 % CI = [0.5, 3.7]。 表示若重复实验,多数 (95 %) 区间会覆盖真实差异。 3. **p 值 ≠ 效果强度**;CI 更能显示“差多少”。 - 大样本极小差异也可得非常小 p 值。 --- ## 五、常见误区与避坑指南 |误区|正解| |---|---| |“p < 0.05 说明差异重要”|只说明**统计显著**,需结合效应大小、业务价值判断“实质重要”。| |“不拒绝 H₀ 证明两者相等”|只能说“证据不足以否定 H₀”;可能样本太少。| |“置信度 95% 表示真值有 95% 概率落在区间”|更精确说法:若重复实验,95% 的 CI 会覆盖真值。| |一次性定 α、β、样本量|建议 **事先做功效分析**,避免样本过小导致得不出结论。| |多重比较不校正|同时跑多次检验需用 Bonferroni、FDR 等控制总体 α。| --- ## 六、动手小范例 (Python / pandas + scipy) ```python import pandas as pd from scipy import stats # 两组转化率(点击=1,未点击=0) group_a = [1,0,1,1,0,1,0,1,1,0] group_b = [1,1,1,0,1,1,1,0,1,1] # 二项→Z 检验 conv_a = sum(group_a); n_a = len(group_a) conv_b = sum(group_b); n_b = len(group_b) z_stat, p_val = stats.proportions_ztest([conv_a, conv_b], [n_a, n_b]) print(f"Z = {z_stat:.2f}, p = {p_val:.3f}") ``` 输出示例:`Z = -1.00, p = 0.318` → p > 0.05,保留 H₀,暂无法证明两组转化率不同。 --- ### 结尾一句话 > **假设检验=先设无差别基准→计算“数据有多离谱”→用 p 值/CI 判断是否放弃基准;科学与工程决策的定量底座就在这套流程里。** 熟练掌握后,你就能为 A/B 实验、医学试验乃至科研论文提供坚实的统计背书。