AB 实验， A B test - 𓀚 转了码的刘公子

以下是处理后的内容： # Summary ``` 确定目标：使更多的免费用户升级成为付费用户。提出假设：通过在广告语中加入倒计时这种增加紧迫感的信息，能够提升免费用户的升级率。确定实验单位：免费用户的用户 ID。实验组 / 对照组：随机分配，50%/50%。评价指标：用户升级率 = 点击广告升级的用户数 / 看到广告的用户数。评价指标的波动范围：[1.86%，2.14%]。 ``` 推荐系统的AB实验中，为什么会有“小流量占优”的说法？原理是什么？- 朱翔宇的回答 - 知乎 https://www.zhihu.com/question/422885389/answer/126511149909 所以 AB 实验本质是 [[统计学@]] 中的[[数理统计@]]中的[[假设检验]]问题场景：库里换了新球鞋，三分命中率提升了吗？解决： ```Java 场景：库里换了新球鞋，三分命中率提升了吗？旧球鞋：投100次，进42个（42%） → A组（对照组）新球鞋：投100次，进48个（48%） → B组（实验组）问题：48% vs 42%，是真提升还是运气波动？ AB测试的本质： 1. H0：新球鞋命中率 = 旧球鞋命中率（新鞋没用） 2. H1：新球鞋命中率 ≠ 旧球鞋命中率（新鞋有效） 3. 用Z检验计算P值 4. P < 0.05 → 拒绝H0 → 新鞋有效！ ``` 1. 本质是[假设检验](假设检验.md) 2. 应该把 AB 实验和[[开关 feature gate]]当成一个 Object，才能 seamless 地做实验在数量足够大时，均值类指标服从[[正态分布高斯分布]]；概率类指标本质上服从[[二项分布]]，但当数量足够大时，也服从正态分布。 | 维度 | 说明 | | | --- | --- | --- | | **本质** | 双样本[[假设检验]] | | | 均值类的指标，平均使用时长， | 平均停留时间：2.3分钟 | [[Z检验]] | | 概率类的指标，点击率，转化率 | 版本A点击率：5% | [[t检验]] | | **多版本**、多分类指标 | [[卡方检验、χ²检验]] | | | | | | | | | | | **H0** | 新版本 = 旧版本 **这次需求白干了** | | | **H1** | 新版本 ≠ 旧版本（改版有效） | | | **显著性水平 α** | 接受“误判无差别”为代价的阈值，常取 $0.05$。 | | | **p 值** | 在 H₀ 为真时，观测到至少这么极端数据的概率。 | | | **第一类错误 (α)** | 误把真 H₀ 拒绝；“冤枉了无差别”。 | | | **第二类错误 (β)** | 误把假 H₀ 接受；“错过了真差异”。 | | | **检验功效 (1‑β)** | 发现真差异的能力；越高越好。 | | ## 实验单位这就是用户层面的4 个实验单位，它们的准确度从高到低的顺序是：用户ID＞匿名ID（Cookies）/设备ID＞IP地址。为什么我要强调这4 种ID 类型的准确度呢？这是因为，实验单位的准确度越高，A/B 测试结果的准确度才会越高。 # Cues # Notes 这个视频系统而完整地讲解了AB实验的关键知识点，旨在帮助观众达到AB实验认知的顶尖水平。内容主要围绕**实验的价值**、**实验体系的设计**和**重要的统计知识**展开。以下是视频的总结： ## 1. 为什么要做实验？(实验的价值) - **价值源于“意外”（Surprises）：** 实验的目标不应是确认已有的好想法，而是挑战你的想法[[02:11](http://www.youtube.com/watch?v=9kh1YvzZYks&t=131)]。当一个你认为好的想法被实验证明是坏的，或者一个你认为不重要的想法被发现非常好时，实验的价值才得以体现[[02:28](http://www.youtube.com/watch?v=9kh1YvzZYks&t=148)]。 - **假设的成功率低：** 大部分公司的初始假设成功率只有 $20\%$ 到 $30\%$[[02:49](http://www.youtube.com/watch?v=9kh1YvzZYks&t=169)]，这意味着约 $80\%$ 的情况下你会感到意外。 - **促进指数级增长：** 通过实验，可以及时停止（kill）那些带来负面影响（negative impact）的功能（feature），从而使指标（metrics）增长更加稳定和持续，实现更高的指数增长[[03:20](http://www.youtube.com/watch?v=9kh1YvzZYks&t=200)]。 - **提高覆盖率：** 应该想方设法提高实验的覆盖率（coverage），目标是让所有新做的 feature 都经过实验验证[[03:42](http://www.youtube.com/watch?v=9kh1YvzZYks&t=222)]。 - **带来更高的“智力诚实” ([[intellectual honesty 智识诚实]])：** 实验通过事实数据帮助人们了解想法的不足之处，并带来一个更有自主性（agency）和更高开发速度的工程师文化[[09:01](http://www.youtube.com/watch?v=9kh1YvzZYks&t=541)]。 ## 2. 如何设计实验体系？ - **Feature Gate 与 Experiment 结合：** 在底层系统设计上，应将 **Feature Gate**（控制功能是否对用户可见的条件规则）和 **Experiment** 设计成同一个对象[[04:21](http://www.youtube.com/watch?v=9kh1YvzZYks&t=261)]。 - 这样，工程师在进行逐步发布（stage rollout）时（如先发布给 $1\%$ 用户），实验也会自然而然地开启[[05:58](http://www.youtube.com/watch?v=9kh1YvzZYks&t=358)]。 - 这可以让你从一年做几十个实验扩展到几万个实验，因为实验本身不再是开发的瓶颈或限制（constraint）[[10:46](http://www.youtube.com/watch?v=9kh1YvzZYks&t=646)]。 - **构建可信赖的数据系统：** 数据的可信赖性至关重要[[11:09](http://www.youtube.com/watch?v=9kh1YvzZYks&t=669)]。 - 建议使用 **Matrice Catalog** (指标目录) 等产品化的工具，集中定义日志表（logging table）和指标，实现从日志到指标的端到端可追溯性（end-to-end traceable），从而确保数据的可信度[[12:04](http://www.youtube.com/watch?v=9kh1YvzZYks&t=724)]。 - **坚持简单化：** 简单和标准化是实现实验系统可扩展性（scalable）的关键[[13:35](http://www.youtube.com/watch?v=9kh1YvzZYks&t=815)]。不要为了展示专业价值而将事情复杂化，除非复杂性是为了解决一个真实存在的问题[[14:01](http://www.youtube.com/watch?v=9kh1YvzZYks&t=841)]。 ## 3. AB实验的重要统计知识 - **Trade-off（权衡）：** 在样本量（sample size）给定的情况下，实验运行时间越长，就能检测到越小的效应（minimum detectable effect），即准确度越高[[15:30](http://www.youtube.com/watch?v=9kh1YvzZYks&t=930)]。 - **并行实验（Concurrent Experiments）：** 大多数情况下，同时跑多个实验是可以的，交互效应（interaction effect）不是一个大问题，只要实验是正交的即可[[16:38](http://www.youtube.com/watch?v=9kh1YvzZYks&t=998)]。 - **方差减小（Variance Reduction）：** - 目标是降低最小可检测效应（MDE），从而缩短实验时间[[18:46](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1126)]。 - 最有效的方法是 **CUPED**（Covariate Adjusted Post-Experiment Data，协变量调整的实验后数据）或回归调整（regression adjustment）[[19:03](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1143)]。 - CUPED 可以帮助你减少约 $80\%$ 应被减少的方差[[20:03](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1203)]。 - **贝叶斯（Bayesian）与频率学派（Frequentist）：** - 两者是对同一数据的不同哲学解释，但不会改变实验数据本身[[20:50](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1250)]。 - 如果不使用带有主观偏向（bias）的先验（prior），两者在决策规则上最终是一致的[[21:13](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1273)]。 - 不建议使用带有主观倾向的 prior 来进行点估计（point estimation），因为它很容易被滥用[[21:59](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1319)]。 - **序贯检验（Sequential Testing）：** - **解决 Peeking（偷看数据）问题：** 在实验结束前提前查看结果并决定是否上线（Peeking），会导致虚假发现率（False Discovery Rate, FDR）升高[[25:06](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1506)]。 - 序贯检验通过“花费功效（spend power）”来解决这个问题，它在一开始会给予一个更宽的置信区间（confidence interval），从而惩罚（penalize）提前查看的行为[[26:10](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1570)]。 - 建议采用保守（conservative）的序贯检验方法，假设用户会无限次地偷看数据，从而系统性地降低 FDR[[27:22](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1642)]。 - 如果实验结果显示出统计显著的**负面**效应，可以提前终止（abandon/kill）实验（可能存在 Bug 或极差的用户体验），但不鼓励提前上线（shape early）[[27:33](http://www.youtube.com/watch?v=9kh1YvzZYks&t=1653)]。 **视频链接：** [AB实验，有哪些重要却不为人知的知识？｜课代表数据大师课5](http://www.youtube.com/watch?v=9kh1YvzZYks) ___ ### 一、用对的姿势看待AB实验？ #### 1.1 To产品人员一种准确衡量某个动作造成影响的方法；一种通过用户_**完全随机化分流**_并通过对日志记录进行**_基于统计检验的分析比较_**得出_**某些有效指标**_影响的_**流程、规范、方法**_。一种逐步迭代、不断优化改进的实验分析方法； #### 1.2 To开发人员 AB实验能够帮助我们发现代码中的BUG或者程序逻辑漏洞！ #### 1.3 To管理人员 AB实验是_**最可信的测量工具**_； AB实验是_**需要一定的实验投资基础**_，才能保证结果是可信的； #### 1.4 一些AB需要记住的事实 **_特威曼定律（可能是数据分析领域最重要的定律）：任何看起来有趣或与众不同的数字，通常都是错误的！_** 对于AB实验来说，实验效果异于常理的优秀或者失败，基本上都是错误的结论（实验设计、实验流程、数据统计等等出错导致）。 ### 二、如何正确的描述AB实验需求！综合各种产品在进行ab实验前的讨论中，发现目前大家最重要的误区是，没有对AB实验有明确的定义。让我们用文字描述的方式，来梳理AB实验的需求。 AB实验的0假设定义：**在x页面（环节）对x用户进行x操作，不会导致x指标上升！ ---- 这个非常重要，通过描述性定义能够帮助我们搞清楚，到底是做什么ab实验。** #### **2.1 关于AA和AB实验的H0假设和H1假设、P值、2类错误** **H0假设：是一个可以被拒绝的假设；****H1假设：是一个不能被拒绝的假设** | AA实验 | 实验组与对照组**无差异** | 实验组与对照组**有差异** | | --- | --- | --- | | AB实验 | 原假设/0假设/悲观假设 实验组与对照组**无差异** | 备注假设 实验组与对照组**有差异** | 对于AA实验来说：如果p值>$0.05$(显著性)，接受H0假设（_**接受实验组与对照组无差异**_）对于AB实验来说：如果P值<=$0.05$（显著性），拒绝H0假设（_**拒绝实验组与对照组无差异**_），接受H1假设（_**接受实验组与对照组有差异**_）。假设检验的基本原理：“_**在一定的统计假设的前提下，如果发生了小概率事件，我们就有理由怀疑假设的真实性，从而拒绝接受该假设**_”。小概率事件：英国的统计学家Ronald Fisher把$0.05$作为小概率标准，从此小于等于$0.05$的概率就叫做小概率事件。 | | 接受H0 | 拒绝H0 | | --- | --- | --- | | | 正确接受H0 | 错误拒绝H0（第一类错误） | | | 错误接受H0（第二类错误） | 正确拒绝H0 | #### 2.2 关于实验的置信区间置信区间是用来估计参数的取值范围的。目的是根据样本构造一个区间，然后希望这个区间可以把真值包含进去，但是并不知道这个真值是多少。而假设检验，则是先做出假设，然后根据实验结论真值的多少，然后检验这个假设是否可能为真。 ![](https://wiki.corp.qunar.com/download/attachments/592221308/image2022-8-1_14-34-38.png?version=1&modificationDate=1659335678000&api=v2) #### **2.3 关于实验的统计功效** 统计功效（statisticalpower）是如果变体之间有真实差异’检测出有意义的差值的概率（统计上指当真实有差异时拒绝零假设的概率）。通常情况下，样本本量越大，统计功效就越大。 **依据概率公式：统计功效＝$1$ - 第二型错误（第二类错误：AB实验实际是有差异的，但是统计没有出现小概率事件，接受了H0假设，实验组和对照组无差异）** 工业界的标准是在检验中达到至少$80\%$的统计功效。因此在实验开始前,我们通常需要进行统计功效分析来决定需要多少样本量才能到达足够的统计功效。 **通过概率公式，计算得出达到 $80\%$统计功效每个桶需要的样本量：** **![](https://wiki.corp.qunar.com/download/thumbnails/592221308/image2022-8-1_14-42-0.png?version=2&modificationDate=1659515284000&api=v2)**分子：样本方差；分母：是实验组和对照组的指标差异（但是统计之前我们是不知道实验组与对照组有多少差异的！） ****so：对于统计功效描述，是希望在实验组和对照组达到最小X的差异时，所需要的的最小样本量。**** **_一般来说，产品在实验设计之初就需要预先确定一个实验期望的最小提升比例、结合实验前的指标值，计算出实验需要的最小样本量以及实验周期_。** #### **2.4 很重要的实验前提：有效实验的必要因素** **存在可以互不干扰的、且分配到不同桶的实验单元（用户）**：实验单元的唯一性、不能互相干扰（不能发生实验迁移、实验污染等） **足够多的实验单元（用户）**：需要足够的样本量，才能有足够信赖的实验结果 **无异议、可统计的实验指标**：实验指标是大家一致认可的（产品、开发、管理均一致认可），可通过数据记录来统计的； **指标的方差最好是随样本量和时间的增加而变小的（如机票的S2P：分子是pv，随着样本量和时间的增加，方差并不一定是减少的）** **大数定律（白话文描述）：当样本量无限大时，样本均值趋于总体均值。** **中心极限定律（白话文描述）：样本足够大时，任何分布的均值的抽样分布都是正态分布。** **实验改动容易实现**：代码实现简单，太复杂的代码出现bug的可能性大，对实验会产生干扰 **对于AB实验不可行时，可以通过建模或其他的实验技术（本文不做详细描述）：数据统计分析、模拟AB、问卷调查、因果推断等等** ### 三、实验设计可能遇到的问题汇总 #### 3.1 实验非对称流量（SRM Sample Ratio Mismatch）（**一般来说，我们在设计实验的时候，应该让互相实验对照的两个组的流量相同**）非对称流量：是指实验组与对照组的流量比例和实验设计的比例不相符。这种不符，有可能是实验设计上的，有可能是代码开发上的，也有可能是分流方法上的。 ##### 3.1.1 一些造成实验非对称流量的原因 _（1）实验设计：实验设计上对某一桶或者所有桶有过滤，且过滤的要素不一致。（如发券实验，实验组天与天之间发券去重，会导致实验组用户越来越少）_ _（2）操作流程：比如机器人、黄牛、爬虫问题。_ _（3）实验触发环境：实验组与对照组有不同的触发环境，满足实验组和对照组的用户条件不一致（亦或是代码逻辑上不一致、系统性能上不一致）。_ _（4）实验分流随机化：如果排除实验设计、代码开发之外，对于实验流量是可以用配对T检验或者卡方检验来计算p值，来检验实验分流是否有显著性的流量差异。_ ##### 3.1.2 护栏指标 _除了事后的问题排查、流量检验外，还可以**设置护栏指标（Guardrail Metric）。**_ **_护栏指标：该指标与用户分流、实验动作逻辑无关，不受其影响。_** 一些护栏指标的case：客户端崩溃率、人均页面浏览量等 #### 3.2 “初始和新奇效应” - 前端或者流程优化实验 _**几乎所有的实验来说，在实验的初始阶段都有较大或较小的实验效应，尤其是在前端（涉及用户视觉）或者流程优化的实验。**_ 初始效应：用户习惯了旧的功能模式（如页面入口位置的修改）新奇效应：对用户来说，不具有持续的效应（如增加了一个新的功能，如果用户觉得功能无用，重复使用的次数就会随着时间变长而下降）； _**对于营销发券类的实验，尤为重要（需要考虑营销刺激的长期性）！**_ ##### 3.2.1 检测初始效应和新奇效应（1）基于统计效果的变化趋势，拉长实验周期 ![](https://wiki.corp.qunar.com/download/attachments/592221308/image2022-8-1_15-28-32.png?version=1&modificationDate=1659338912000&api=v2) （2）对“初始和新奇用户”进行统计分析：单独提取出实验组和对照组的“初始和新奇用户”的指标数据 #### 3.3 实验的周期性和规模性效应 **周期性效应（周和季节）：** 从实际的生产情况来看，周末的用户群体和周内的用户群体有着明显的差异。即使同一个用户，在周内和周末也有着不同的行为模式。建议：_**实验最少运行一个完整的周（7天），考虑到配对T检验的样本统计功效，我们一般要求实验有14天的周期**_。而对于季节性来说，由于行业的特殊性，我们一般认为淡季进行的实验结论，只能用于淡季。旺季需要另外一个实验来进行测量。 **规模性效应：** 对于某些类型的实验（如排序，如差异化营销等等），我们需要先期进行一个小流量的实验，验证结论后进行放量。但是：有些类型的实验，在放量的过程中，会出现规模效应（即大规模实验的结论和小规模实验的结论不一致），同时放量本身也具有一定的危险性。小流量优势（双边排序）： ![](https://wiki.corp.qunar.com/download/attachments/592221308/image2022-8-1_16-30-47.png?version=2&modificationDate=1659517050000&api=v2) #### 3.4 实验的选择性偏差与幸存者偏差 **选择性偏差：** 主动的、积极的响应实验动作的用户会比其他用户更好。比如：我们给用户提供了一个新的营销内容，如果只分析点击了相关营销内容的用户，会导致选择性偏差，夸大了实验效果。应该以实验初始的分配用户来进行实验效果的分析。 **幸存者偏差：** 一种很简单、大家都能理解的误差。 #### 3.5 正确的实验时机（时刻效应）一个真实的案例：给用户推送了一种新的营销内容。实验组和对照组看到的营销内容不一致。由于为了实验操作简单，程序先发送了实验组，后发送了对照组。这个时候会出现：时刻效应。如果实验组发送的时间正好是用户活跃的时间，很容易出现当对照组发送时，已经错过了用户活跃时间段。导致实验不对称，出现误差！ #### 3.6 选择合理的实验指标 **并不是所有的业务指标都能当成实验指标！** ##### 3.6.1 实验指标的必要要素（1）可测量：可通过大量行为数据记录来进行测量。如用户满意度，很难测量，及时是用户填写，也很难代表真实行为（2）可归因：实验指标的下降和上升，能够明确归因到某个或者某些用户。如客户端崩溃率，可以明确的知道哪些用户的客户端是崩溃的（3）灵敏且及时：足够灵敏且能够及时测量。比如，用公司股价作为实验指标（实际上，任何微小的改动无法影响公司股价，这个指标就是不灵敏的）（4）可组合：有些实验需要同时关注多个指标；一般来说，我们建议只用一个指标，或者将指标分为核心和次要两类指标；可以选择将多个指标加权组合。 #### 3.7 双边市场的实验设计对于平台型公司来说，一般都是双边市场（即市场包含两个参与方，消费者与生产者）。双边实验：一种在生产者端和消费者端同时组合进行实验的方式。 ##### 3.7.1 双边实验的优点（1）可以同时检测出策略对消费端和生产端的影响（2）可以检测部分的溢出和转移（3）帮助我们更好理解实验的作用机制（实验效果主要是从消费者端产生，还是生产者端产生） ![](https://wiki.corp.qunar.com/download/attachments/592221308/image2022-8-1_16-53-40.png?version=1&modificationDate=1659344020000&api=v2) ### 四、关于检验的那些事~ #### 4.1 关于多个实验组和对照组在互联网行业中，由于实验的成本相对较少（或产生负向实验效果的损失较少），我们对于实验的严谨性要求并不是那么的高。甚至于有些公司，并不进行AA实验，直接进行AB实验（可能是要求低，也有可能是流量太小）。但是：在医疗和机械制造行业，实验成本大和实验出错带来的伦理成本大，使得对于实验的严谨性要求很高。一般来说，上述两个行业均会采用多个实验组和对照组来进行检验（每一次抽样产生的组，可以看成一个新的实验组和对照组）。 #### 4.2 多重检验 _**单次检验的假阳性率（第一类错误）发生的概率等于p值，多次检验会使得犯错的概率增大。**_ _**当我们进行一次实验时，往往存在$5\%$的概率（犯第一类错误）认为两组指标不同，但事实上两组指标相同。如果进行多次重复实验，例如20次，假设每次实验依然存在犯第一类错误的概率为$5\%$，那20次中至少出现一次第一类错误的概率约为$1−(1−0.05)^{20}=64\%$。**_ _**![](https://wiki.corp.qunar.com/download/attachments/592221308/image-2024-8-27_14-2-18.png?version=1&modificationDate=1724738538000&api=v2)**_ 对于多个实验组和对照组所产生的实验结果p值的处理办法： ##### 4.2.1 极小值方法这是在多重检验中最为常用的方法，由Tippet与1931年提出的。 ![](https://wiki.corp.qunar.com/download/attachments/592221308/image2022-8-1_17-29-14.png?version=1&modificationDate=1659346155000&api=v2) ##### 4.2.2 费舍尔（Fisher）方法将多个独立检验的p值合并成一个统计检验的p值。 ![](https://wiki.corp.qunar.com/download/attachments/592221308/image2022-8-1_17-12-4.png?version=1&modificationDate=1659345125000&api=v2) 通过费舍尔统合分析方法，能够提高统计功效，并降低假阳性率（第一类错误）。 ##### 4.2.3 Bonferroni校正如果在同一数据集上同时检验n个独立的假设，那么用于每一假设的统计显著水平，应为仅检验一个假设时的显著水平的$1/n$。如要在同一数据集上检验两个独立的假设，显著水平设为常见的$0.05$。此时用于检验该两个假设应使用更严格的$0.025$。即$0.05 \times (1/2)$ _方法太严格容易将真实显著性给筛掉_ ##### 4.2.4 Holm–Bonferroni校正相比起Bonferroni校正，相对没那么严格。 _![](https://wiki.corp.qunar.com/download/attachments/592221308/image2022-8-1_17-21-8.png?version=1&modificationDate=1659345668000&api=v2)_ ##### 4.2.5 策略法 **直觉理论：如果2个实验的p值都小于$0.05$，那么相对于只有1个实验的p值小于$0.05$来说，实验真实显著的可能性更高！** **简单策略法：对多个实验组和对照组进行交叉检验，产生多个实验结果p值** | AA实验 | 所有配对组的p值均>$0.05$ | 有任意一个配对组p值 >$0.05$ | | --- | --- | --- | | AB实验 | 所有配对组的p值均<=$0.05$ | 有任意一个配对组p值 <=$0.05$ | ### 五、一些简化实验和统计替代方法~ #### 5.1 "画门"法一种简化实验（或者说预先实验）的方法。通过“画门法”，能够减少实验成本或者提前预计实验真实上线的效果。举个例子：我们要在用户个人首页新增加一个功能（如上传认证信息？）。实际开发的成本（涉及后端功能）会很大，可以采用“画门法”。实际操作：实验组在页面上增加一个按钮入口（用户点击之后，系统都提示：功能开发中，敬请期待）评估指标：实验组用户分群统计点击率、实验组用户分群与对照组计算其他指标通过这个操作，可以知道实验组那些类型的用户喜欢这个功能（从而估算覆盖率和影响），可以知道点击这个功能对指标的影响 #### 5.2 非AB实验的分析方法随机AB实验并不能解决所有问题。一些不适合做AB实验的场景（如涉及伦理性）往往需要其他的分析测量方法来完成。 ##### 5.2.1 基于指标间关系的分析方法一个新的指标如果能找到与之强相关的其他类指标，且其他类指标在历史上有过实验论证的，可以进行指标的关联分析 ##### 5.2.2 基于数据探索的模拟AB实验通过用户漏斗模型中每一步转化率来识别特别大的流失点对流失点的用户进行分层分析、对用户的行为序列进行模拟AB ##### 5.2.3 基于历史自然实验自然实验偶尔会发生，或者由于外部环境的变化、程序BUG等，可以通过观察性分析来测量效果如营销发券（机票有线上的随机立减、青年特惠等活动） ##### 5.2.4 通过因果推断当前数据挖掘领域内最热门的3个研究方向之一。 **To管理：通过因果推断能够更精准的测量新增业务对于大盘的影响。** 大致有2种类型：对AB实验数据归因（加入会员对于用户收益的影响）；对现象或政策归因（不同折扣对于用户收益的影响） ### 六、一些问题的答疑~ #### 6.1 关于AB实验的指标波动问题 & AA实验不通过的问题 6.1.1 实验指标：分析单元和随机单元必须一致如：CTR的三种计算方法（1）总点击数/总浏览数 ---- 有离群点时，对数据影响大（引申一下：机票的统计需要移除大单等）（2）点击uv/浏览uv；（3）avg(每个用户的CTR=点击数/浏览数) ##### 6.1.2 导致实验指标波动或者AA不通过的原因（1）实验设计与开发（用户过滤？程序bug等）（2）实验利群点用户（如机票的大单用户，黄牛用户等），尤其是样本量很少的时候（3）分流不均的小概率发生、检验统计的假阳性 #### 6.2 关于T检验（独立和配对），Z检验，卡方检验等检验方法 ##### 6.2.1 检验方法 ![](https://wiki.corp.qunar.com/download/attachments/592221308/image2022-8-2_15-5-24.png?version=1&modificationDate=1659423924000&api=v2) ##### 6.2.2 T检验与Z检验 T检验比Z检验的普适性更强，因为Z检验要求知道总体标准差，但实际生产中无法获知总体样本的标准差。当样本量足够大的时候，数据接近正态分布，T检验几乎成为了Z检验。 ##### 6.2.3 独立T检验与配对T检验 | | 单样本T检验 | 配对样本T检验 | 独立样本T检验 | | --- | --- | --- | --- | | | 与某个数字对比差异 如：S2P是不是比$15\%$大 | 配对数据差异 | 两组数据的差异 | | | 服从正态分布 | 差值服从正态分布 | 两组数据均服从正态分布 | | | --- | 无要求 | 要求方差齐 | **什么时候用独立T检验，什么时候用配对T检验？或者说，对于配对样本，能不能用独立T检验？** 对于配对样本结果，直接用独立T检验，会导致出现第二类错误（假阴性）；原因是组间差异的问题。 - 策略造成的差异很难大于周期差异：我们属于周期性行业（周一和周日，在各项业务指标上都存在较大差异），周一的实验组用户必须和周一的对照组用户相比较，才具备比较意义 - 关注差异：我们对于一个项目或者策略的提升，希望是长期的、持续的提升。所以我们更关注实验组和对照组的差值。 - 采用独立T检验，限制较多（流量必须一样，流量不一样会出现样本量不同，抽样分布不同；以及计算耗时更大） - 独立T检验，组内差异过大，会干扰检验结果。举例： | | | | | | | --- | --- | --- | --- | --- | | 实验组 | 对照组 | 差值 | | 独立T检验P值 | | $0.9272$ | $0.9302$ | $(0.0030)$ | | $0.977019855$ | | $0.8544$ | $0.8547$ | $(0.0003)$ | | | | $0.8199$ | $0.8203$ | $(0.0004)$ | | | | $0.7355$ | $0.7444$ | $(0.0089)$ | | 配对T检验P值 | | $0.6314$ | $0.6397$ | $(0.0083)$ | | $0.003220427$ | | $0.5287$ | $0.5317$ | $(0.0030)$ | | | | $0.4171$ | $0.4188$ | $(0.0017)$ | | | | $0.3070$ | $0.3101$ | $(0.0031)$ | | | | $0.3768$ | $0.3801$ | $(0.0033)$ | | | | $0.9272$ | $0.9302$ | $(0.0030)$ | | | | $0.8544$ | $0.8547$ | $(0.0003)$ | | | | $0.8199$ | $0.8203$ | $(0.0004)$ | | | | $0.2142$ | $0.2157$ | $(0.0015)$ | | | | | | | | | | --- | --- | --- | --- | --- | | 实验组 | 对照组 | 差值 | | 独立T检验P值 | | $0.9272$ | $0.9302$ | $(0.0030)$ | | $0.022037397$ | | $0.9272$ | $0.9275$ | $(0.0003)$ | | | | $0.9299$ | $0.9303$ | $(0.0004)$ | | | | $0.9298$ | $0.9387$ | $(0.0089)$ | | 配对T检验P值 | | $0.9213$ | $0.9296$ | $(0.0083)$ | | $0.003220427$ | | $0.9219$ | $0.9249$ | $(0.0030)$ | | | | $0.9272$ | $0.9289$ | $(0.0017)$ | | | | $0.9285$ | $0.9316$ | $(0.0031)$ | | | | $0.9271$ | $0.9304$ | $(0.0033)$ | | | | $0.9269$ | $0.9299$ | $(0.0030)$ | | | | $0.9272$ | $0.9275$ | $(0.0003)$ | | | | $0.9299$ | $0.9303$ | $(0.0004)$ | | | | $0.9298$ | $0.9313$ | $(0.0015)$ | | | **Qunar的AB实验平台对于检验方式的选择？** 1. 优先采用配对T检验（每一天的实验组和对照组汇总数据作为一组配对样本）； 2. 出现其他原因后使用独立T检验（注意：不是将每一天汇总后的样本作为独立T检验样本，这样会出现第二类错误；是将实验周期内的所有实验组用户作为独立T检验样本，排除掉组间差异）（独立T检验的自由度大，相对的检验误差更低）