火山引擎为什么要大力推A/B测试?
2021年4月,字节跳动副总裁杨震原在火山引擎——飞书之外,字节跳动另一条重要的To B业务线的媒体开放日上,第一次对外介绍火山引擎的A/B测试产品。
至此,春天以来,火山引擎一系列的市场动作,快速占领了A/B测试产品的市场认知。
但不得不承认的是,如果与IaaS等基础To B服务相比,A/B测试绝对不是一个大市场。从供给侧来看,行业成熟度高的产品并不多。对于这块不是那么“诱人”的业务,不缺流量、“不差钱”的字节,为何高调“出手”?
没有“故事”,只有“务实”
A/B测试又被称为小流量实验。针对想改进的某个功能/UI/逻辑策略等,提供两种或多种不同的备选解决方案,从总体企业用户中抽取一小部分,随机地将抽取出的流量分配给不同方案,最终结合一定的统计方法,通过实验数据对比来确定最优方案。
A/B测试带给企业的收益主要有两方面,一是前置性地验证方案收益,不仅能评估出哪个方案更好,还能评估出好多少;另一方面是规避了风险,如果某个方案会对企业业务带来负面影响,A/B测试能够将其控制在实验范围内。
“但是A/B测试赚不了多少钱。”火山引擎总经理谭待在接受TO B新势力采访时,开门见山地说道。
谭待没有神化A/B测试这款产品,也没有讲任何故事,反而强调“务实”是整个业务线从上至下的气质。
了解客户到底想要解决一个什么样的场景问题——怎么样去衡量这个问题,如何衡量解决得好坏——通过数据还是通过人——哪些工具、哪些方法、哪些技术能够把这事解决好。这是火山引擎团队对内和对外解决问题的基本逻辑。
2012年成立之初,字节跳动就在内部使用A/B测试,之后这个工具逐渐升级、进化,成为大型的测试平台,2018年开始服务少数外部的种子客户,2020年通过火山引擎正式对外商业化。
“产品卖这么多钱,能否给客户带来相应的价值?能不能解决实际问题?”谭待加入字节跳动快两年,他觉得公司务实的文化让他感受最深,对客户有价值, To B生意才能长久。
字节是唯一一家将To B技术或者业务部门用“引擎”这个词来命名的大厂。谭待解释:“引擎的含义是技术要服务业务场景,产品和服务能够帮客户实现业务增长。”
火山引擎A/B测试产品架构师李想进一步解释到:“火山引擎A/B测试首先是一个对外的产品,进而能够把承载字节增长的方法论和文化传播出去。火山引擎以A/B测试为切入点,进而让企业客户认识到火山引擎其他的数据产品,这是更为关键的。”
目前,字节内部对于火山引擎的To B业务并没有强制性的营收压力,能够取得客户信任和续约,获取对To B的认知迭代,是其最为看重的。
借助A/B测试,分享字节跳动关于数据驱动的理念,这是火山引擎重仓A/B测试的本质。
火山引擎数据智能解决方案负责人孙超赟从企业文化角度阐述了A/B测试产品的意义:“A/B测试背后折射出字节内部的决策机制不是自上而下拍脑门,而是兼容并包、开放坦诚。让数据和事实说话,避免了逐级汇报成为产品迭代路上的障碍。”
火山引擎产品架构图
02魔鬼藏在细节
无论是A/B测试,还是数据驱动,不得不承认的是,这都不是新概念。这一点谭待在采访中也认可。
火山引擎进入A/B测试市场,带来的增量是什么?
火山引擎市场部在不久前曾做过一个市场调研。1000家企业的样本数据显示:在企业的日常业务和管理中,A/B测试的普及率并不高,渗透率不足30%。
A/B测试认知度数据统计
“渗透率低的原因是,市场上一部分用户不了解A/B测试,还有一部分用户对A/B测试本身的价值没有足够的认知。”孙超赟认为。
此外,近一两年A/B测试正在从一个科学概念,逐渐走向更广泛的行业应用。这背后的大背景是互联网从粗放的流量增长阶段进入到精细化运营阶段。
“在所有的精细化运营工具中,A/B测试是ROI最高的一种。”孙超赟负责火山引擎智能套件华北区业务。他在接触客户的过程中感知到:过去几年,企业的数字化转型已经接近完成第一个阶段,即通过用户行为分析工具了解包括DAU、核心业务流程转化率、用户留存等业务数据。
现在进入的第二个阶段,则是通过A/B测试直接拉动业务,让工具从成本中心转变为利润中心。
“A/B测试能够告诉企业真正提升业务具体要做什么。比如,一家金融机构,一个A/B测试的实验可能带来上亿元的增收。”
在接触大量用户之后,孙超赟强烈的感受是:“准确的分流是A/B测试的基础门槛,且不说运维等其他成本,一旦数据分流出现失误,会导致企业在错误的方向上越走越远。”
火山引擎的A/B测试在自动分流、正交互斥上经历了字节早期推荐算法迭代的打磨,这些技术是字节留住客户进行商业变现,搭建App矩阵的基础。
在专家人才上,火山引擎的A/B测试专家涵盖了To B领域,特别是字节内部业务线成长而来的人员,他们有推荐算法等C端经验。
实际上,除了分流的科学性,更为复杂的是指标设计和解读以及置信度的统计方法,一旦出现失误,更易导致错误的结论。
“A/B测试魔鬼藏在细节,真正能够把产品做好的不多。其次,市面上其他A/B测试公司没有C端的场景。第三,避免市场份额被蚕食而被动推出的产品,或者过于垂直细分的某一个技术,无法给用户带来最大价值。”孙超赟认为。
因为来自真实的实践和场景,面对客户稀奇古怪的需求,火山引擎的专家几乎都会有一个早就准备好的文档,直接拿出来给客户解答。
根据杨震原此前在媒体沟通会上透露的数据:A/B测试作为字节跳动一项非常基础的工具,在通过火山引擎向企业客户产品化开放之前,已经支撑了抖音、今日头条等产品的增长迭代。
目前,字节跳动A/B测试每日新增1500+实验,服务于400多项大大小小的业务,累计做了70多万次实验。
这其中,最典型的例子是,抖音的名字,其实是综合了A/B测试和人为判断的结果,“抖音”这个名字在测试结果中排名第二。在正确的方向上,结合人为对其形态的认知和判断,最终选定。
03仅有A/B测试还不够
“客户真正需要的并不是产品,而是一个解决方案。客户不是为了A/B测试一个产品而来,而是为了解决业务增长的困局而来。”
“A/B测试是火山引擎智能数据产品中最强的单品之一。但在整个火山引擎To B架构应用层中,还形成了彼此强关联的产品体系,包括CDP、GMP等。”孙超赟提到。
数据分析和洞察——策略设置——实验上线验证——功能上线——效果再验证,这一整套完整的闭环是客户没有说出来的真实需求。
“最终能够帮助企业解决问题的工具才是有用的。”谭待强调,“企业如果想实现A/B测试的结果,不是仅仅构建一个A/B测试平台就够了,还需要建立起一套基础设施,完善的业务指标和健全的体系设计,这是成功的一半。更关键的是迭代、研发,数据收集和对比都要很高效。”
“我们希望通过A/B测试这个概念,推动数据驱动的理念。数据驱动在各个场景中实践好,只有一个App是不够的,这些配套价值链上的工具,以及字节自己的经验,才能形成综合优势。”谭待认为。
科学的目标设置和精确衡量,是改进的第一步。If you cannot measure, you cannot improve.
04客户想要更多
王杰是悟空租车的产品负责人。他和团队主要通过数据和运营手段帮助用户提升线上产品体验。
几年前,王杰就开始为公司选型,但大部分A/B测试服务商对于体量小,使用量级低的创业公司友好度低。自研投入、周期长,技术资源不足。而且,大多工具使用主要面向开发者,而不是产品人员,上手难度很大。这是悟空租车在选型A/B测试产品时的三个挑战。
在测试了很多产品后,王杰告诉TO B新势力:“火山引擎目前是我认为业界最领先的,除了能解决上述难题,迭代速度也比较快,任何需求火山引擎团队的回复和迭代周期平均在两周。”
在实际效果上,根据王杰提供的数据,在支付环节,比如押金先收还是后收,A/B测试后,有了10%以上提升。图片展示环节,对大图预览和车型图片测试后,提升了7-8%的业务转化。当然,这中间也有结果的数据是负向的。正负之间,王杰认为,最大的好处是:“对需求有了把握。”
车型大图样式A/B实验数据对比
押金收取方式前置和后置的转化率提升效果
王杰强调:目前与火山引擎团队的交流更多是在工具层面。特别期待火山引擎能以课程和培训的方式对外输出,王杰和团队甚至愿意付费学习。
和王杰相似,在TO B新势力的调研中,绝大多数的企业用户之所以看中字节系To B产品最重要的原因是:想学习字节的方法论。
“我们对大厂产品风格有不同的理解。比如百度侧重于面向开发者提供语音识别,图像识别技术工具。阿里侧重于偏向To B,比如支付宝的支付商业能力。字节偏向互联网产品,其流量、运营和工具测试的经验,是我们非常想学习的。”
“通过工具已经能学到不少东西,但除了工具,我们甚至愿意为培训和经验付费。”另一位创始人向TO B新势力表达。
05向外输出时的辩证思考
谭待是数据驱动的忠实“信徒”。在负责火山引擎的业务后,他在业务管理中不断推进管理驾驶舱、数据看板等数字化、流程化的建设。“不是每周看一些美化过的PPT,而是随时看到各种各样的业务数据”。
但谭待并不认为数据驱动就是万能的。在对外提供服务时,火山引擎要结合客户的具体需求和业务场景,而不是一股脑的把所有数据产品都推销出去。就在采访的前一天,他还劝退了一家并不适合做A/B测试的企业客户。
“我们可以结合客户的场景去设计,比如说在你这个场景里哪些指标是更关键的,其实相当于把头条和抖音的一些运营和设计经验传达给客户。”谭待说到。
一些大客户找到火山引擎,虽然其内部有A/B测试,但是他们想要一个能够统一的实验平台,通过统一定义用户、公用的指标去实验。李想觉得,火山引擎做A/B测试最大的优势是——字节内部400多条业务线,都在用同一个实验平台和指标口径。标准高效和数据分享,带来了价值。这些经验可以迁移给客户。
孙超赟的感受是:“客户其实更想知道字节在过去的增长过程中,业务增长的方法论是什么,一些具体案例是什么,我们尝试着把这些经验和方法论沉淀,对外输出。”
在数据驱动向外输出过程中。孙超赟也在辩思,比如字节并不是外界传言100%都在用A/B测试。而是按需使用A/B测试。
工具并非万能,工具和人之间存在平衡。面对数据,企业用户在心态上往往经历了一个不断磨合的过程。成功的A/B测试有的时候不一定会有一个明显的胜出者,差异化不明显依然是真实的实验结果,保持合理的心理预期,探寻背后的原因解读,是最有成就感的部分。
正如杨震原所说:“充分地做A/B测试,这是一个能够在很大程度上补充信息的过程,能够消除很多偏见,能够带来很多客观的事实。但是它也不是完美的,需要补充其他方法一起来用。”