# Summary
P值 = Probability Value = 偶然性
一个**这到底是不是巧合"的计算器**,最后告诉你:"这个差异是巧合的概率只有X%"
假设你想知道 每天喝苹果汁的人和不喝苹果汁的人,他们的平均身高是不是有差别。 你量了一组喝苹果汁的人,平均身高 170 cm。 另一组不喝的人,平均身高 168 cm。 这 2 cm 的差异,到底是因为苹果汁真的有影响,还是只是随机抽样的巧合呢? 我觉个例子,假设每个组都 hi只有一个人,我大概率会觉得这是个巧合,假设每个组都有一亿人,我会觉得大概率这是真的,Z检验是不是就是为了平衡这个样本和可信度之间的关系
|每组人数|标准误差|Z值|结论|
|---|---|---|---|
|10人|4.47 cm|0.45|不显著,可能是巧合|
|100人|1.41 cm|1.41|还不太显著|
|1000人|0.45 cm|4.47|非常显著!|
|1亿人|0.001 cm|2000|极其显著!!|
```
# 假设检验思维导图
# |
# |-- 假设
# | |-- 零假设:实验组和对照组的指标是相同的
# | |-- 备择假设:实验组和对照组的指标是不相同的
# |
# |-- 检验
# | |-- 按假设来分类
# | | |-- 单尾检验:不仅在假设中说明两个比较对象不同,还明确了谁大谁小
# | | |-- 双尾检验:仅在假设中说明两个比较对象不同,但并没有明确谁大谁小
# | |
# | |-- 按比较样本的个数来分类
# | | |-- 单样本检验:当一组样本数据和一个具体数值进行比较时
# | | |-- 双样本检验:当两组样本数据进行比较时
# | | |-- 配对检验:当比较同一组样本数据发生变化前和发生变化后时
# | |
# | |-- 按数据特征来分类
# | |-- T检验:当我们不知道总体方差时,使用T检验
# | |-- Z检验:当我们已知总体方差,且样本量大于30时,使用Z检验(比例检验)
# |
# |-- 结果
# |-- 两类错误
# | |-- 第一类错误:在A/B测试中,当假设检验推断出两组指标不同,但事实上两组指标相同时
# | |-- 第二类错误:在A/B测试中,当假设检验推断出两组指标相同,但事实上两组指标是不同时
# |
# |-- 推断方法
# |-- P值法:用P值和15%进行比较,得出假设检验的结果(P值小于5%,则结果显著;P值大于5%,则结果不显著)
# |-- 置信区间法:看置信区间是否包括0(包括0,则两组指标有可能相同;不包括0,则两组指标不同)
```
## 一、单边与双边
**单样本 t 检验**:一组数据 vs 一个固定的理论值。
**双样本 t 检验**:两组实际数据互相比较。
## 二、过程模版
```Java
1. 建立假设:写出 H₀ 与 H₁
2. 选检验类型:t / Z / χ² / ANOVA / 非参数 …
3. 设显著性水平 α(先定规矩)
4. 计算检验统计量 & p 值
5. 做决策:p ≤ α → 拒绝 H₀;否则保留 H₀
并报告效应大小 + 置信区间
```
> **口诀**:写假设 → 选检验 → 定 α → 算 p → 判结果。
| 维度 | 说明 | |
| -------------- | ------------- | ------- |
| **本质** | 双样本[[假设检验]] | |
| 均值类的指标,平均使用时长, | 平均停留时间:2.3分钟 | [[Z检验]] |
| 概率类的指标,点击率,转化率 | 版本A点击率:5% | [[t检验]] |
| **多版本**、多分类指标 | [[卡方检验、χ²检验]] | |
## 三、第几类错误
|错误类型|你说啥|真相是啥|结果|
|---|---|---|---|
|**第一类错误**|"红色有效!"|红色没用|💸 白花钱改版|
|**第二类错误**|"红色没用"|红色有效|💔 错失增长机会|
- **第一类错误(α=5%)**:把**没用的创新**当成宝,推广后发现是空欢喜
- **第二类错误(β=20%)**:把**有用的创新**当成垃圾,扔掉后才知道错过了金矿
在你这个按钮案例中:
- 犯第一类错误 = **误判成功,瞎折腾**
- 犯第二类错误 = **看走眼,错失增长**
# Cues
| 检验方法 | 篮球场景 | 数据特点 | 核心问题 |
| ----------------- | ---------------------------------------------- | --------- | ---------- |
| [[Z检验]] | 库里300次三分 vs 生涯42% | 大样本,比例/均值 | 这赛季命中率变了吗? |
| [[t检验]] | 库里vs汤普森(各10场得分),<br>两人平均得分相同吗? | 小样本,正态 | 谁得分更高? |
| [[卡方检验、χ²检验]] | 左中右三个位置的命中情况<br><br>H0:投篮位置与命中率独立(位置不影响命中)<br> | 分类计数 | 位置影响命中率吗? |
| **[[F检验]]/ANOVA** | 库里、汤普森、格林三人得分 | 多组比较 | 三人得分有差异吗? |
| [[非参数检验]] | 两队犯规次数(严重偏态) | 不正态 | 中位数有差异吗? |
| | | | |
| | | | |
| 检验类型 | 典型应用场景(列出 5 个)|
| -------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **[[t 检验]]**(小样本、正态、比较均值)| 1. 咖啡店取 10 位顾客停留时间,判断平均停留是否 > 15 分钟(单样本 t)。<br>2. A/B 两组各 20 名用户的日均使用时长是否不同(独立两样本 t)。<br>3. 同一批学生考试前后成绩差异(配对 t)。<br>4. 小批次药丸含量是否达标,与 100 mg 标准比较(单样本 t)。<br>5. 两家健身房 15 台跑步机每天能耗均值是否一致(独立两样本 t)。|
| **χ² 检验**(分类频数,拟合优度 / 独立性)| 1. 掷骰 60 次观察 1–6 点数分布,检验是否公平(拟合优度)。<br>2. 问卷统计性别 × 是否购买会员,判断性别与购买行为是否独立(列联表)。<br>3. 网站 3 种按钮颜色点击次数,检验点击率是否等概率(拟合优度)。<br>4. 病人分四年龄段 × 是否患某病,检验年龄与发病独立性(列联表)。<br>5. 电商平台 5 个类目投诉数量是否与销量占比一致(拟合优度)。|
| **F 检验 / 单因子 ANOVA**(比较两方差或多组均值)| 1. 两条生产线各抽 12 件产品重量方差比(F 方差比检验)。<br>2. 三种肥料对作物产量的均值差异(单因子 ANOVA)。<br>3. 四款广告素材 CPM 均值是否有显著差别(ANOVA)。<br>4. 甲乙两品牌手机电池寿命方差是否相等(F 检验)。<br>5. 不同温度下 5 批化学反应产率均值比较(ANOVA)。|
| **Z 检验**(大样本均值或比例)| 1. 日活 5000 人的 APP,平均会话时长是否 > 3 分钟(单样本 Z)。<br>2. 邮件 2000 封打开率是否超过 25 %(单样本比例 Z)。<br>3. A/B 实验各 1500 人点击率差异(两比例 Z)。<br>4. 物流中心 100 条配送平均延时是否达标(单样本 Z)。<br>5. 连续 60 天网站 PV 均值与去年同期比较(两独立样本 Z)。|
| **非参数秩检验**(分布不明或严重偏态)| 1. 两款 UI 界面加载时间分布偏右,比较中位数用 Mann–Whitney U。2. 用户满意度 Likert 1–5 分,前后测差异用 Wilcoxon 符号秩。3. 三种搜索排序策略点击深度比较用 Kruskal‑Wallis。4. 十家公司市值排序对比历史中位数用 单样本 Wilcoxon。5. 医疗影像评分(0–10 离散且偏态)两医生组差异用 Mann–Whitney U。|
> - **阅读技巧**:先选“检验类型”→ 找对“前提条件”→ 对号入座场景。
>
> - 各检验的核心公式、p 值解释与前提检验可参考前述说明或统计教材。
下面按 **“概念 → 操作流程 → 常见检验 → 易犯误区”** 四大板块,把假设检验从 0 到 1 讲清。配合思维导图式层次结构,读完即可自己动手跑一次 t 检验 / 卡方检验。
---
## 一、核心概念
|术语|通俗理解|
|---|---|
|**原假设 H₀**|“一切如常”的基准说法;例如“新药与旧药疗效相同”。|
|**备择假设 H₁**|与 H₀ 相对,通常是我们真正想证明的,如“新药更有效”。|
|**显著性水平 α**|接受“误判无差别”为代价的阈值,常取 0.05。|
|**检验统计量**|把样本数据转成一个可查分布的数字,如 t、χ²、F。|
|**p 值**|在 H₀ 为真时,观测到至少这么极端数据的概率。|
|**拒绝域**|当检验统计量落在这里,就“拒绝 H₀”。|
|**第一类错误 (α)**|误把真 H₀ 拒绝;“冤枉了无差别”。|
|**第二类错误 (β)**|误把假 H₀ 接受;“错过了真差异”。|
|**检验功效 (1‑β)**|发现真差异的能力;越高越好。|
---
---
## 三、常见检验全景图
|目标|数据条件|检验统计量|示例问题|
|---|---|---|---|
|**均值**|小样本、σ² 未知|**t**|A/B 两组平均停留时长是否不同?|
||样本 > 30 或 σ² 已知|**Z**|产品日均访问量是否高于 1 万?|
|**比例**|样本量足够|Z (二项近似正态)|电邮打开率是否超 25%?|
|**方差**|正态、独立|**F**|两条生产线质量波动是否一致?|
|**独立性**|分类数据|**χ²**|性别与购车意向是否相关?|
|**分布拟合**|分类频数|χ²|投点游戏结果符合均匀分布吗?|
|**中位数 / 配对差**|非正态或秩数据|**Wilcoxon** / **Mann‑Whitney**|新 UI 布局对点击深度有没有提升?|
|**多组均值**|正态、方差齐|**单因子 ANOVA**|三种肥料产量是否存在差异?|
> ⚠️ **前提检验**:t 检验默认正态、方差齐;若不满足,可转非参数检验或做变换。
---
## 四、深入理解 p 值与置信区间
1. **p 值小** → 数据在 H₀ 视角下“很罕见” → 拒绝 H₀。
- p = 0.03 (< 0.05):换成日常话就是“在 H₀ 成立时只有 3% 的概率出现当前或更极端的样本”。
2. **置信区间 (CI)** 同步报告可量化效应大小。
- 例:差异均值 = 2.1 秒,95 % CI = [0.5, 3.7]。
表示若重复实验,多数 (95 %) 区间会覆盖真实差异。
3. **p 值 ≠ 效果强度**;CI 更能显示“差多少”。
- 大样本极小差异也可得非常小 p 值。
---
## 五、常见误区与避坑指南
|误区|正解|
|---|---|
|“p < 0.05 说明差异重要”|只说明**统计显著**,需结合效应大小、业务价值判断“实质重要”。|
|“不拒绝 H₀ 证明两者相等”|只能说“证据不足以否定 H₀”;可能样本太少。|
|“置信度 95% 表示真值有 95% 概率落在区间”|更精确说法:若重复实验,95% 的 CI 会覆盖真值。|
|一次性定 α、β、样本量|建议 **事先做功效分析**,避免样本过小导致得不出结论。|
|多重比较不校正|同时跑多次检验需用 Bonferroni、FDR 等控制总体 α。|
---
## 六、动手小范例 (Python / pandas + scipy)
```python
import pandas as pd
from scipy import stats
# 两组转化率(点击=1,未点击=0)
group_a = [1,0,1,1,0,1,0,1,1,0]
group_b = [1,1,1,0,1,1,1,0,1,1]
# 二项→Z 检验
conv_a = sum(group_a); n_a = len(group_a)
conv_b = sum(group_b); n_b = len(group_b)
z_stat, p_val = stats.proportions_ztest([conv_a, conv_b], [n_a, n_b])
print(f"Z = {z_stat:.2f}, p = {p_val:.3f}")
```
输出示例:`Z = -1.00, p = 0.318` → p > 0.05,保留 H₀,暂无法证明两组转化率不同。
---
### 结尾一句话
> **假设检验=先设无差别基准→计算“数据有多离谱”→用 p 值/CI 判断是否放弃基准;科学与工程决策的定量底座就在这套流程里。** 熟练掌握后,你就能为 A/B 实验、医学试验乃至科研论文提供坚实的统计背书。