一、一定要先分析再测试
在需要严格研究效果的运营场景中,为什么要做A/B测试,我们在之前的文章中已有涉及。总结起来就是一句话:实践是检验真理的唯一标准。
人们对于一个新事件的判断,大多基于经验或者是已经经过实践检验的真理去分析,得到一个结论。可是,我们如果要对某一推广物料的效果做预判,真的有那么多有价值的参考和把握吗?
毫无疑问,观察、分析是寻求真相之旅的非常重要的部分,但肯定不是全部。分析得到的结论在经过实践的检验之前,都是纸上谈兵。但是在一个完整的方法论中,分析也是必须的。A/B测试不能代替分析过程,也必须发生在分析之后。基于改进意见得出测试计划,才能事半功倍。
例如,品牌方产品定位、市场、用户等方面做出分析后,确定了在商详页总共需要介绍5个卖点,但是大家对介绍卖点的顺序各执一词。有的认为应该先介绍科技,再介绍场景;有的人认为应该先介绍场景,再介绍科技。双方也许经过激烈的辩论,从不同角度出发,给出了不同的论据。此时进行A/B测试就再好不过了。
因为对于好胜的双方来说,有动力找到最佳的测试池、衡量测试结果的重要指标,更能让测试客观和符合逻辑。在运用正确的测试方法后,得到的结论不光是哪个结果好,还有哪个思路对,以及对与这个思路复用性的评估。而如果对于5个卖点的顺序不加思考就鲁莽测试,测试过程就会变得冗余——有120个排序需要测,即便测出来,也并没有复用性。
那么,如何正确的做A/B测试呢?
二、拢共分5部
1. 一次只测试一个假设
比如,在提高弹窗通知点击率这件事上,很多朋友会有很多个完全不同的弹窗同时测试,最后一看数据,觉得一下找到了最佳方案。
掉坑了吧?且不说随机性会影响结果显著性和可信度,这样做其实又是一种没有分析的鲁莽测试:做 A/B 测试不是只为了在当下做一个决定,每个测试的结果都能获得一些用户行为洞察,让你的团队更聪明。
弹窗多种多样,每种弹窗又由诸如标题、活动文案、图片素材等等元素组成,如果得到的结果是标题A+文案B+图片C优于标题D+文案E+图片F或者标题X+文案Y+图片Z,那我们能得到什么结论呢?有什么复用性呢?
一定是先对某个变量的表现有所怀疑,然后控制这个变量,使其成为原始版本A,再根据分析做假设,衍生出实验组。
关于这一步,详见往期文章:David Hume、灯泡功率问题和互联网营销测试
有个小Tip
“隐形” 元素 VS 明显元素:
A/B测试控制变量时,很容易想到的就是颜色、布局、字体大小、位置、标题、按钮、页面长短等设计细节。
但是,别忘记还有很多特别重要的维度:不同推广时段(一天中的时段、星期几、月份、季节)、引导步骤背后的逻辑。
2. 思考一下,是否已经测试过比这个点更重要/更前置的事情?
这个道理非常简单。在烹饪的时候,一定是先确认主料和配料,再说火候的事情——火候再精准也炒不好已经变质的牛肉;已经想好炒里脊肉,才发现客人想吃的是排骨,岂不白费功夫?
如果是做一个新的落地页或网站、H5等,在疯狂测试某个按钮、颜色、图片或标题之前,请先尝试测试整个页面的结构和风格。
3. 确定对比指标
将这个指标确认后,我们可以根据测试结果明确版本间的优劣,终止争论。
在进行各种A/B测试时,大部分人都认为对比指标只应该是转化率。但是,不要让转化率成为你所有测试的全部。一定要同时关注和监测的其他指标:点击率、退出率、潜在客户活性。因为 ROI 的提升,不单单是看转化率。检查整个漏斗的更多指标,尽量把问题考虑全面。
4. 建立A/B测试环境
建立A/B测试环境,指的是确保实现对上述各种变量的控制——需要确保每个对比版本的流量来源、成分、时间等等是完全相同的。如果嫌麻烦的话,可以使用Ptengine,帮助您完美控制变量。
以测试弹窗为例,系统自动平均分配流量:
选择弹窗触发/停止的时机:
添加展示的页面条件:
选定要触达的用户:
定义体验目标:
定时发布
5. 考量测试结果
如何确认A真正优于B?
如果两个版本的流量基数均为10000个,A版本的转化数是46,B版本是45,你能说A版本优于B版本吗?
在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围,即前面所要求的“一定概率”。这个概率被称为置信水平。
简单来说,置信水平就是得到结果的可靠程度。例如:
A版本优于B版本的置信度为99%,指的是A版本优于B版本的概率达到99%。这是一个很高的置信度,说明A版本确实优于B版本。
而如果A版本优于B版本的置信度为50%,就明A版本优于B版本的概率是50%。这样一来,A版本优于B版本就不是一个能够成立的结论,因为这个概率跟掷硬币猜正反面没有什么区别。
通常,数字化营销中的A/B测试的置信度最好要达到95%以上,但达到90%以上一般也是被认可的。比如,修改注册表单的选项可能是一个重大改变,会带来连锁反应,你可以将目标定严格点儿,如95%以上。
那么,如何计算置信度呢?你可以在网上查到一个很复杂的公式,也可以用Ptengine——我们已经帮你算好啦!
如同所示,版本2以+6.07%胜出,优胜率达到99.69%。也就是说,指的是版本2优于版本1的概率达到99.69%,几乎100%胜出。那还犹豫什么?选版本2啊!
除了选优胜版本,从这次测试中还能学到什么?
- 本次测试中不同版本的用户行为有何不同?
- 本次测试结果证明了怎样的思维方式?
- 如果换个时间,测试结果还会相同吗?
- 测试结果证实的理念能否复用?
- 是否需要进一步测试?
对测试结果不满意怎么办?
测试不是一步到位的。有时最微小的变化可以产生很大不同,不必将A/B测试限制为不成功便成仁,因为即使调整有优化,也不一定能达到你期望的指标,可以做很多次调整。比如,赫赫有名的谷歌工具栏,一个阴影的色调就测试了41次。
AB测试对国内的很多团队来说,可能是一个具有挑战的事情:设置测试、管理细节、收集和分析数据。但是,来势不可挡。根据你的公司规模、预算、员工和目的,你可以设计一套简化的 AB 测试流程。
如果你从未进行过数据分析并希望开始 AB 测试,那么 Ptengine 或许能帮到你:
- 你可以安装基本功能,低成本入门
- 因为非常直观友好的用户界面,上手快
- 可以在预算增长时,添加各种功能
- 你可以在页面上采取两个(或更多)页面变体,并将它们同时比较,看看哪个页面表现更好
- 相对轻松地提高参与度和转化率,并对目标页面进行大量快速更改,而不用非得懂代码
来源公众号:Ptengine(ID:ptmind_bj)打造以用户为核心的独立站成长工作流。
本文由奇赞合作媒体 @Ptengine 发布,未经许可,禁止转载、采集。
该文观点仅代表作者本人,奇赞平台仅提供信息存储空间服务。