01 背景
很多做广告,营销,增长类策略的产品经理,在做一些活动和投放策略效果的评估时会遇到一些问题。
活动达到所带来的核心指标变动和预期不符,我们很难定位出具体的原因是什么。
因为对于有活动和没有活动的两个用户群体存在差异,所以对于核心指标下降,我们比较难确定是策略导致,还是说用户群体的原因。
所以简单来讲,我们在做一些活动投放策略的时候,很难控制其他影响指标的因素的一致性,比如用户的年龄,城市,金融属性,购买力等等。尤其对于一些线下活动和效果广告的投放,无法像AB实验去进行随机流量分配,或者进行AA实验,从而保证其他变量分布的一致性。
那么自然,我们就无法去给出一个确认的结论。所以针对这类问题,我们怎么去处理?
02 PSM分析方法
今天给大家讲一个比较常见的方法:倾向性得分匹配,也就是常说的PSM分析法。
首先,跟大家简单讲一下这个方法的基本原理:
其实针对上面的问题,我们很容易能想到一种办法,比如可以通过分层抽样,让参与实验组和对照组的用户在属性上保持一致,比如用户的性别,年龄,地域等等。
但是,很明显传统的分层抽样会面临下面的问题:
-
选择哪些维度
-
选择多大的样本量
-
怎么去抽
PSM分析法其实就是对分层抽样的一种进阶版本,通过计算倾向性得分,让分层抽样后的结果能更加置信的参与到我们后面的策略当中,进而我们得到确定性比较高的结论。
03 倾向性得分
所谓的倾向性得分,其实就是研究一个变量在给定其他条件下为真的概率是多大。比如我们以研究高中生考上大学的概率为例。
这个里面可能会涉及到很多变量,选取三个:
-
变量A表示是否早起
-
变量B是是否学习用功
-
变量C表示是否能考上大学
很明显,你会发现其中有这样一种关系:如果一个高中生学习成绩好,他早起的概率很大。如果一个高中生学习用功,那么他考上大学的概率也会很大。但是,是否早起与考上大学显然是没有因果关系的。
那么,如果你想研究高中生早起和考上大学是否有因果关系,通过近几年的考生抽样调查获得了大量的数据,通过数据发现,早起的考上大学的概率更大,也就是早起和考上大学是存在因果关系的。这是因为早起的高中生,大概率学习成绩比较用功,所以考上大学的概率更大
虽然,我们直接去看早起和考上大学是没有因果关系,但是因为他们有共同一个原因:用功学习。高中生学习用功推出早起,高中生学习用功推出考上大学。从而使两者表现出了一定的相关性。
这其中,变量B也可以称作是A和C两个变量的混杂因素,由混杂因素造成的结果偏差称为混杂偏差。所以如果我们想要得到A和C的因果关系,就必须消除混杂偏差
倾向性得分匹配就是消除混杂因素B的方法。
比如我们拿这个案例为例,可以统计一下每天早起和不早起的两组学生。然后以每天早起的用户作为基准,从不早起的用户当中选择智商,生源地区,中考成绩等相差不多的学生,最终我们可以让这两组学生在混杂因素上的分布基本一致,这样就保证了两组学生的唯一变量就是:是否早起。
然后我们去统计最终他们是否能考上大学,这样得出的结论相对就比较确定了。
04 PSM怎么实施
接下来我大概说一下PSM分析的四个步骤:
1. 维度选择:去通过一定的方法去计算除了我们要控制的唯一变量之外的其他变量和用户的得分,也就是倾向性得分。
2. 用户匹配:根据计算出的倾向性得分去进行去进行用户匹配,把“得分相近”的用户放到一起,最终生成两组新的用户,这两组用户可以理解为是在各维度变量上的分布基本一致
3. 一致性检验:检上面我们通过倾向性得分计算出了两组用户,虽然理论上是一致的,但还是需要通过科学的指标去看这两组用户的分布是否一致
4. 效果评估:通过把计算得到的两组用户根据相应的指标去对当前策略的效果进行评估,这样得到的结果很大程度是当前策略带来的差异,相对比较可信。
对于这个方法,作为产品经理来讲主要了解其使用场景和做的事情即可,具体实现过程可以让DA、DE或者算法工程师来搞定。当然,现在也有一些数据处理软件可以很方便的进行直接计算,比如SPSS,有条件的也可以自己模拟一下。