AB实验:科学归因与增长的利器
上QQ阅读APP看书,第一时间看更新

1.3 AB实验的2个核心价值

本节主要介绍在实验效果评估中,AB实验的2个核心价值:定性因果和定量增长。

1.3.1 定性因果:验证因果关系,确保方向正确

如果仅依靠人的直觉和经验,很难保证每次产品迭代优化的方向都朝着我们期望的方向进行。Google和Microsoft相关统计表明,即使是很有经验的产品经理,正确判断产品策略的概率也只有约1/3。在凭经验难以做出正确决策的情况下,我们必须有一个有效手段来辅助判断,以提高准确率。方向性的判断是需要判断本次优化是否在朝着期望的方向进行。简单来说,某个策略的改变是否会导致某个产品指标的改变,其本质是一种因果关系的判断。维基百科对于因果关系的定义是第一个事件“因”和第二个事件“果”之间的作用关系,其中后一事件被认为是前一事件的结果。一般来说,一个事件是很多原因综合产生的结果,而且原因都发生在较早的时间点,而该事件又可以成为其他事件的原因。

在因果关系的定义中有一个关键点——因果发生是有时间前后关系的。这种前后关系,就是我们需要验证的关系:因为产品做了某个改变,所以用户有某种感知;因为改进了某个特征,所以产品在向目标方向前进。

在社会科学领域,AB实验被广泛用于验证因果关系,也是目前已知的快速、低成本验证因果关系最好的方法。其他大部分数据分析手段,如常见的回归分析、关联分析以及机器学习模型,主要表明的是一种相关性。相关不代表因果,是科学和统计学经常强调的重要概念。两个事物有明显的相关性(即当一件事出现时,另一件事也出现),不一定表示两者之间有因果关系(即一件事出现的原因是另外一件事出现,或者一件事出现的结果是另外一件事出现)。相关性和因果性究竟有何不同?为什么验证因果关系如此重要?我们来看几个具体的例子。

有一个著名的因果关系与相关关系案例是“巧克力消耗量与获得诺贝尔奖的数量”。数据显示,消耗巧克力越多的国家,人均诺贝尔奖数量越高,相关系数r达到了0.791。虽然有很高的相关性,但是我们能通过提高巧克力的消耗来提高获得诺贝尔奖的数量吗?显然是不能的。

相关网站网站链接为http://www.tylervigen.com/spurious-correlations。 收集了很多看起来很荒谬的相关性例子,比如自杀率和科学投入量高度正相关、缅因州的离婚率和人造奶油消耗量高相关等。美国缅因州的离婚率和人造奶油消耗量在2000年至2009年间达到了极强的相关性,相关系数为0.9926。

吃人造奶油和离婚明显是没有因果关系的两件事,吃多点人造奶油不至于让人性情大变而导致离婚,离婚之后也不太可能因为心情沮丧而多吃人造奶油。如果我们的研究目的是找出缅因州离婚率下降的主因,人造奶油消耗量和离婚率之间的相关性有用吗?显然这个相关性的作用是很有限的,你不能据此得出结论:少吃人造奶油有助于婚姻和谐。我们希望得到的是真正影响离婚率的因素,这需要有针对性地调查或实验。研究人员可能会想到,是否有一个第三因素,导致缅因州离婚率和人造奶油消耗量共同下降,比如经济形势。

上述示例很好地说明了相关性不能代表因果性。在产品的优化迭代中,因果关系是我们的核心关注点。

●在信息流领域,推荐系统给用户推荐更小众、更符合用户兴趣的内容,或者推荐更广泛的、多样性更好但是不一定那么贴近用户兴趣的内容,哪种用户的留存率更高?

●电子购物网站在商品页面和购物车页面给用户优惠红包,哪种用户转化率更高?红包额度多大时,平台收益最多?

●更醒目的跳转按钮是否会促进着陆页的转化?

●使用什么样的信息收集话术、选项和交互方式,用户更愿意配合?

以上这些问题都需要待验证的因果关系,这正是AB实验可以大展身手的地方。既然最关注的是因果关系,相关性是不是就毫无价值呢?当然不是,相关性在探索性的研究中是很有用的。相关性在实践中预示着某种关系,可以帮助我们确定下一步研究的方向。相关性的典型例子如产品的价格和销量的关系,汽车数量和空气质量的关系。这些相关性的例子都暗示了进一步的因果关系。从经济学的角度看,价格下降会提升需求,从而增加销量。从环境学的角度看,虽然汽车数量增加使得尾气排放量增加,进而导致空气质量变差,但空气质量变差并不是完全由汽车数量增加导致的。

在产品设计和迭代的过程中,我们一般会希望提升日活跃用户数量、用户活跃度、用户留存率、用户使用时长等指标。探索这些目标指标和用户的各种行为、特征之间的关系,通过分析,往往会有以下发现。

●用户阅读兴趣和信息流曝光内容的重合度和用户活跃度正相关。

●用户画像的丰富程度和用户活跃度正相关。

●用户参与互动数量与用户使用时长正相关。

●用户使用某功能次数与用户留存率正相关。

虽然有如此多相关性的发现,但是实际上,我们并不知道究竟这些关系是如何相互作用的。以“用户参与互动数量与用户使用时长正相关”为例,如果单纯从相关性角度来讲,我们可以认为互动数量与用户使用时长有着很高的相关性。如果该产品的核心KPI是用户使用时长,基于这个分析结果,在很多产品中大概率会发生的事情是,产品设计者希望通过一些策略增加互动数量,从而提升用户使用时长。互动是一个显而易见的抓手,而时长很难直接干预。

这个思路究竟对不对呢?我们不知道是因为用户本身就是时长较高的用户,所以参与互动比较多,还是因为用户参与互动多了,时长变长了。这里面可能隐藏着真正的影响因素,比如他本身就是一个活跃用户,互动和时长只不过是高活跃的数据现象。我们没有证据能证明用户参与互动多,使用时间就会长;也没有证据证明用户使用时间长,参与互动就多。这两者之间的因果性是不确定的、未知的。因为产品形态、用户构成等不一样,所以互动和时长之间的因果关系对于不同的产品可能有不同的模式。比如在A产品中,用户参与互动数量提升的同时使用时长也提升了;在B产品中,用户参与互动数量提升了,使用时间并没有任何变化。正是由于种种复杂性,只有通过AB实验才能知道它们之间究竟是否存在因果关系。

综上,不是所有的相关性都有因果关系,也不是所有的相关性都没有因果关系。这一切都需要还原到具体的产品和场景中,通过AB实验加以验证。

在实际的产品迭代中,我们最希望找到的是因果性。只有找到了因果性,我们才能知道策略究竟对于目标是不是有直接作用,从而有针对性地做产品优化和提升。AB实验重要的价值在于,能够帮助我们确定因果关系,确保产品迭代和优化的方向是正确的。

1.3.2 定量增长:实践数据驱动,精细成本收益

AB实验的重要作用还在于可以准确量化策略效果,从而真正做到数据驱动、精益迭代。如果不能测量一个东西,也就没法优化它。在实践中,量化一般不是问题,最大的问题在于准确量化,量化一定要准确才有意义。不要小看1%的差异,即便每次1%的变化,一年365天累计下来就是37.8倍(1.01的365次方等于37.8)。通过AB实验,不但可以验证因果关系,还可以获得具体的量化数据,其意义在于执行策略A后,可以得到关注的核心指标究竟能提升多少。这一点非常重要,数据量化不仅能帮助我们及时排除不好的方案,降低新产品或新特性的发布风险,还能帮助我们消除不同的意见纷争,根据实际数据效果确定最佳方案。

为什么AB实验可以量化因果效应的效果呢?我们首先需要理解因果推断模型。理解因果推断模型不仅能帮助我们了解为什么AB实验可以进行量化,还可以帮助我们更好地理解AB实验中常见的一些问题。因果推断常用的模型有两个:一个是著名的统计学家Donald Rubin教授在1978年提出的潜在结果框架(Potential Outcome Framework,POF),也称为Rubin因果模型(Rubin Causal Model,RCM);另一个是Judea Pearl教授在1995年提出的因果图模型。这两个模型在本质上是等价的。从数据分析的角度,潜在结果框架更加通俗易懂。下面我们使用潜在结果框架来解释因果推断模型。

用Ti表示个体i是否进行了某个实验,例如是否被投放了红点、是否被灰度了某功能、画像是否被丰富过、是否被推荐了多样性的内容。实验的个体取1,对照的个体取0。{Yi(1), Yi(0)}表示个体i进行实验和作为对照的潜在结果。例如,Yi(0)表示一个用户没有被投放红点时的活跃度,Yi(1)表示一个用户被投放红点时的活跃度。由于这些潜在结果在投放红点之前就已经“命中注定”,因此成为“潜在结果”。Yi(1)-Yi(0)表示个体i接受实验后的个体因果作用。

不幸的是,每个个体要么接受实验,要么接受对照,{Yi(1), Yi(0)}中必然缺失一半,我们用Yi表示个体i的观察结果,当用户Ti=0时,我们会观察到Yi=Yi(0),否则会观察到Yi=Yi(1)。也就是说,两个潜在结果,我们永远只能观察到其中一个,另一个不得而知。由此可见,个体的因果作用是不可识别的。个体观测的结果用公式表示如下。

虽然个体的因果作用不可识别,但是在T做随机化分组的前提下,我们可以识别总体的平均因果作用(Average Causal Effect,ACE)。

在期望算子满足线性的时候,计算公式如下。(请注意,非线性的算子导出的因果度量很难被识别。)

在T独立随机化分组的时候,也就是个体参与实验与否完全与结果无关的时候,可以进一步得出如下推导。

引入一个中间假设变量,实验人群不做实验的潜在结果为。

平均因果作用转化如下。

其中E{Yi|Ti=1}是实验对于参与实验的人的平均因果效应,δ=E{Yi(0)|Ti=1}-E{Yi(0)|Ti=0}是随机分组带来的选择偏差。如果AB实验随机分流足够均匀,实验组(T=1的用户)和对照组(T=0的用户)是同质的,这时的选择偏差应该无限接近0。下面用更简单直观的方式来描述一下这个过程。

上面的公式表明,将实际影响(接受实验的实验人群会发生什么)与反事实(如果他们没有接受实验会发生什么)进行比较是建立因果关系的关键。在随机分配单位给变量的情况下,因为第一项是观察到的实验组用户接受实验与不接受实验之间的差异,第二项选择偏差的期望值为零,所以可以使用AB对照实验来评估因果关系。

我们通过上面的数学推演理解了为什么AB实验能量化变化并验证其中的因果关系。正是因为AB实验让我们获得了产品迭代与指标之间的因果以及量化关系,所以说AB实验是数据驱动产品迭代与优化的基石。