深度拆解A/B测试五大步骤，A/B测试不能代替分析过程

Ptengine 2022.12.03

阅读 1166

一、一定要先分析再测试

在需要严格研究效果的运营场景中，为什么要做A/B测试，我们在之前的文章中已有涉及。总结起来就是一句话：实践是检验真理的唯一标准。

人们对于一个新事件的判断，大多基于经验或者是已经经过实践检验的真理去分析，得到一个结论。可是，我们如果要对某一推广物料的效果做预判，真的有那么多有价值的参考和把握吗？

毫无疑问，观察、分析是寻求真相之旅的非常重要的部分，但肯定不是全部。分析得到的结论在经过实践的检验之前，都是纸上谈兵。但是在一个完整的方法论中，分析也是必须的。A/B测试不能代替分析过程，也必须发生在分析之后。基于改进意见得出测试计划，才能事半功倍。

例如，品牌方产品定位、市场、用户等方面做出分析后，确定了在商详页总共需要介绍5个卖点，但是大家对介绍卖点的顺序各执一词。有的认为应该先介绍科技，再介绍场景；有的人认为应该先介绍场景，再介绍科技。双方也许经过激烈的辩论，从不同角度出发，给出了不同的论据。此时进行A/B测试就再好不过了。

因为对于好胜的双方来说，有动力找到最佳的测试池、衡量测试结果的重要指标，更能让测试客观和符合逻辑。在运用正确的测试方法后，得到的结论不光是哪个结果好，还有哪个思路对，以及对与这个思路复用性的评估。而如果对于5个卖点的顺序不加思考就鲁莽测试，测试过程就会变得冗余——有120个排序需要测，即便测出来，也并没有复用性。

那么，如何正确的做A/B测试呢？

二、拢共分5部

1. 一次只测试一个假设

比如，在提高弹窗通知点击率这件事上，很多朋友会有很多个完全不同的弹窗同时测试，最后一看数据，觉得一下找到了最佳方案。

掉坑了吧？且不说随机性会影响结果显著性和可信度，这样做其实又是一种没有分析的鲁莽测试：做 A/B 测试不是只为了在当下做一个决定，每个测试的结果都能获得一些用户行为洞察，让你的团队更聪明。

弹窗多种多样，每种弹窗又由诸如标题、活动文案、图片素材等等元素组成，如果得到的结果是标题A+文案B+图片C优于标题D+文案E+图片F或者标题X+文案Y+图片Z，那我们能得到什么结论呢？有什么复用性呢？

一定是先对某个变量的表现有所怀疑，然后控制这个变量，使其成为原始版本A，再根据分析做假设，衍生出实验组。

关于这一步，详见往期文章：David Hume、灯泡功率问题和互联网营销测试

有个小Tip

“隐形” 元素 VS 明显元素：

A/B测试控制变量时，很容易想到的就是颜色、布局、字体大小、位置、标题、按钮、页面长短等设计细节。

但是，别忘记还有很多特别重要的维度：不同推广时段（一天中的时段、星期几、月份、季节）、引导步骤背后的逻辑。

2. 思考一下，是否已经测试过比这个点更重要/更前置的事情？

这个道理非常简单。在烹饪的时候，一定是先确认主料和配料，再说火候的事情——火候再精准也炒不好已经变质的牛肉；已经想好炒里脊肉，才发现客人想吃的是排骨，岂不白费功夫？

如果是做一个新的落地页或网站、H5等，在疯狂测试某个按钮、颜色、图片或标题之前，请先尝试测试整个页面的结构和风格。

3. 确定对比指标

将这个指标确认后，我们可以根据测试结果明确版本间的优劣，终止争论。

在进行各种A/B测试时，大部分人都认为对比指标只应该是转化率。但是，不要让转化率成为你所有测试的全部。一定要同时关注和监测的其他指标：点击率、退出率、潜在客户活性。因为 ROI 的提升，不单单是看转化率。检查整个漏斗的更多指标，尽量把问题考虑全面。

4. 建立A/B测试环境

建立A/B测试环境，指的是确保实现对上述各种变量的控制——需要确保每个对比版本的流量来源、成分、时间等等是完全相同的。如果嫌麻烦的话，可以使用Ptengine，帮助您完美控制变量。

以测试弹窗为例，系统自动平均分配流量：

选择弹窗触发/停止的时机：

添加展示的页面条件：

选定要触达的用户：

定义体验目标：

定时发布

5. 考量测试结果

如何确认A真正优于B？

如果两个版本的流量基数均为10000个，A版本的转化数是46，B版本是45，你能说A版本优于B版本吗？

在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围，即前面所要求的“一定概率”。这个概率被称为置信水平。

简单来说，置信水平就是得到结果的可靠程度。例如：

A版本优于B版本的置信度为99%，指的是A版本优于B版本的概率达到99%。这是一个很高的置信度，说明A版本确实优于B版本。

而如果A版本优于B版本的置信度为50%，就明A版本优于B版本的概率是50%。这样一来，A版本优于B版本就不是一个能够成立的结论，因为这个概率跟掷硬币猜正反面没有什么区别。

通常，数字化营销中的A/B测试的置信度最好要达到95%以上，但达到90%以上一般也是被认可的。比如，修改注册表单的选项可能是一个重大改变，会带来连锁反应，你可以将目标定严格点儿，如95％以上。

那么，如何计算置信度呢？你可以在网上查到一个很复杂的公式，也可以用Ptengine——我们已经帮你算好啦！

如同所示，版本2以+6.07%胜出，优胜率达到99.69%。也就是说，指的是版本2优于版本1的概率达到99.69%，几乎100%胜出。那还犹豫什么？选版本2啊！

除了选优胜版本，从这次测试中还能学到什么？

本次测试中不同版本的用户行为有何不同？
本次测试结果证明了怎样的思维方式？
如果换个时间，测试结果还会相同吗？
测试结果证实的理念能否复用？
是否需要进一步测试？

对测试结果不满意怎么办？

测试不是一步到位的。有时最微小的变化可以产生很大不同，不必将A/B测试限制为不成功便成仁，因为即使调整有优化，也不一定能达到你期望的指标，可以做很多次调整。比如，赫赫有名的谷歌工具栏，一个阴影的色调就测试了41次。

AB测试对国内的很多团队来说，可能是一个具有挑战的事情：设置测试、管理细节、收集和分析数据。但是，来势不可挡。根据你的公司规模、预算、员工和目的，你可以设计一套简化的 AB 测试流程。

如果你从未进行过数据分析并希望开始 AB 测试，那么 Ptengine 或许能帮到你：

你可以安装基本功能，低成本入门
因为非常直观友好的用户界面，上手快
可以在预算增长时，添加各种功能
你可以在页面上采取两个（或更多）页面变体，并将它们同时比较，看看哪个页面表现更好
相对轻松地提高参与度和转化率，并对目标页面进行大量快速更改，而不用非得懂代码

来源公众号：Ptengine（ID：ptmind_bj）打造以用户为核心的独立站成长工作流。

本文由奇赞合作媒体 @Ptengine 发布，未经许可，禁止转载、采集。

该文观点仅代表作者本人，奇赞平台仅提供信息存储空间服务。

赞 (0)

0 0

Ptengine合作媒体

97 文章

0 评论

22 粉丝

Ptengine帮您打造以用户为核心的独立站成长工作流

Google SEO

99%网站都会存在重复内容——收下这份超全清单！

网站在切入SEO优化时，往往都是从站内技术问题整改开始，而在这其中，解决“重复内容”是尤为重要且常见的一点。

Cross Border Digital
2023.04.22
TikTok

TikTok解压视频背后的大生意

看似无趣的解压清洁过程视频，背后却蕴育着巨大的商业机会。

白鲸跨境
2023.05.24
独立站运营案例库

专访跨境资深卖家黄总｜对品牌的认知深度，决定了企业的发展高度

“有品类无品牌，就去做品牌，抢占用户心智；有品类有品牌，就去做细分市场。”

任小姐出海战略咨询
2023.04.05
独立站运营案例库

超高利润的小刀外贸独立站分享

之前的几篇文章也介绍过一些超高利润的产品，其实大家都想做高利润的产品，但是可能受限于身边资源等问题，不知道如何找到一些高…

我的推广生涯
2023.09.19
TikTok

为热爱暴力的女性而生的小品牌-KoStudio

差异化定位小案例

白鲸跨境
2023.06.14
独立站运营案例库

Shopify 商品页面优化指南+案例分析

正如我在前面所说的那样，很多人因为没有完全优化他们的商店页面，或太过相信Shopify 提供的“转化优化页面”而白白花钱…

了不起的杰克
2024.03.06

发表回复

登录后才能评论

奇赞（ www.qizansea.com）创立于2023年2月，Base广州，专业的品牌出海知识社区。核心关注：品牌独立站&TikTokShop的流量增长与用户转化的营销玩法。

集社区、会员、课程为一体，全方位服务全球化创业者、品牌操盘手等出海从业者。覆盖深广杭上北等20个城市，在行业有较高的知名度、信誉度和影响力。

聚集了华为小米大疆OPPO安克创新创想三维赛维时代SHEIN等众多知名全球化品牌的创始人CEO、项目运营总监和业务操盘手，他们在这里与你一起成长。

奇赞李坤锦

主理人

奇赞公众号

公众号

奇赞小程序

小程序

李坤锦

李坤锦

公众号

公众号

视频号

视频号

小程序

小程序

返回顶部