独家|对话淘天凯夫:淘宝AI升级,2025年做了三件事

出品|虎嗅商业消费组

作者|苗正卿

题图|视觉中国

如何让一艘正在航行的巨型轮船,在保持前行的同时“换上”新引擎?

这是摆在23岁淘宝面前的“历史级考题”:拥有10亿年度活跃用户、300余万商家、6.5万亿年GMV的淘宝,需要完成一场AI升级。而考题的难点在于,它要一边确保业绩稳中有增,一边确保用户和商家感觉不到“升级阵痛”。

虎嗅独家获悉,2024年12月,淘天决策层针对AI升级进行了多次会议,经过讨论后,内部逐渐梳理出三件“最具确定性”的需要通过AI升级的事情:1.大幅度提高流量匹配效率(搜推广) 2.为商家增效降本 3.新的AI导购产品。而在2025年3月,三件事陆续启动。

整个过程,采用了AB测试、灰度上线等阿里传统打法。虎嗅了解到,上述三个事情,几乎并行。由阿里巴巴中国电商事业群搜推智能事业部和CTO技术线共同牵头,多个兄弟部门协同推动。

从虎嗅视角观察,这个过程是非常谨慎的。有知情人士告诉虎嗅,所有AI相关新功能、工具,都会从2%用户量这个阶段开始测试。常见的模式是,采用了新AI产品的2%用户会被纳入到一段为期数周的观察期。在这两周之内,技术团队、数据团队等部门会连夜复盘,并研究消费者体验变化背后的原因。

如果一个AI功能或产品,在2%用户量的维度获得了不错的反馈,那么接下来会进入5%、10%直到50%的漫长测试周期,直到50%这个量级测试依然展现出良好的结果,这个产品/工具才能全量上线。

伴随这个过程的,是几个“过去十几年少有的大项目”的诞生。其中的代表项目是“商品库”。在过去23年,淘宝积淀了庞大的商品信息库,但传统的商品信息和淘宝迫切希望引入的生成式AI大模型之间存在“代沟”——过于潦草、错误的商品信息,无法让大模型理解、学习,也无法让大模型发挥出真正的实力。

但彻底改造数以几十亿级的商品信息库无疑是个大工程。虎嗅了解到,淘天把AI作为生产力引入到这个超级工程之中。团队开发了单独的AI Agent去自动学习、撰写商品信息,然后AI Agent还会完成复查环节,基于AI助力,这个在人工时代“多年未解决”的难题,在数个月时间里得到了显著效果。而基于这个新商品库,淘天重新引入了基于大模型的“搜推广”体系,改变了旧有的流量分配生态。

虎嗅获悉,自3月开始,淘天陆续完成了商品库、六个AI创新产品(AI万能搜、AI Summary、拍立淘、AI帮我挑、AI试衣、AI清单)、搜推广体系长尾词复杂词AI升级、商家AI工具升级等一系列工作。从数据看,这些动作带来了流量匹配效率双位数增长。据悉,淘宝复杂语义下搜索相关性提升了20个百分点,推荐信息流点击量提升10%,商家广告ROI提升12%。

10月16日,虎嗅在天猫双11发布会上获悉,2025天猫双11将在10月20日晚上8点开卖,今年将是首个AI全面落地的天猫双11。在用户侧,六款AI创新产品已经在双11前上线或开启内测;在搜推广体系,淘天在双11前已经完成了包括复杂词在内的几个重点AI升级项目。而有品牌商家告诉虎嗅,在今年双11前,商家后台已经出现了超过至少10款新的AI工具。

AI显然已经成为本届双11,和当下淘宝天猫进化的关键词。

在16日早些时候,虎嗅与阿里巴巴中国电商事业群搜推智能总裁凯夫进行了独家交流,这是今年6月份虎嗅与凯夫交流阿里国际AI升级后的再次深入沟通。凯夫分享了他对于淘天AI升级的思考,以及他们在整个过程中的一些基本的、关键的逻辑,下附交流实录,有删减:

虎嗅:2024年双11后,您回归淘天带队推动AI升级,你们团队思考AI进化的整个脉络是怎样的?重点做了哪些事?

凯夫:我觉得本质上关键的是围绕三件事。第一个是“搜推广”的AI升级,也就是在搜索、推荐、广告三个方面大幅度提高流量匹配效率;第二个是为商家增效降本,这里面包括了很多toB的AI工具,比如美工、客服这些环节;第三个是AI创新产品,主要是一些新的AI导购产品,比如我们的AI万能搜、AI助手。

虎嗅:这三件事有优先级吗?你们内部启动的时间点是有前后顺序的,还是几乎同步?

凯夫:是同时去做的。同时开始讨论,同时立项。我们大部分的讨论,是在2024年12月就开始了,然后在年初基本上都定下了基本的思路。这三件事,我们整体上是从3月份着手去做的。

虎嗅:为什么选择这三件事去做?

凯夫:搜推广的AI化是我们非常有确定性的一件事。因为搜推广是所有电商平台的核心,一个电商平台最重要的其实就是它的商品体系加上搜索、推荐、广告,这构成了电商平台的核心引擎。搜推广体系的效率和能力,直接决定了消费者能不能找到想要的商品、决定了商家有没有流量。

其实早在生成式AI诞生前,“搜推广”就已经是机器学习最重要的应用场景之一。当生成式AI出现后,针对“搜推广”的AI化,其实有两种思潮。

第一种思潮认为,搜推广和生成式大模型是两条路,也就是说不要把二者融合,而是单独去基于大模型做一些新的东西。第二种思潮,则是想把商品当成token,用生成式大模型next token prediction的范式彻底改造搜推广。

这两种思考,其实本质上都有各自的问题。第一个的问题在于,它把这两件事看得太割裂了;第二个的问题在于,过于理想主义,步子迈太大了。

所以2025年初,我们做的第一个决定是,认为搜推广是大模型最好的应用场景,我们决定把跟大模型相关的算力、资源投入到搜推广这件事上。

此后我们做了第二个决定,就是到底怎么投入。我们思考后认为,不能像“科幻小说”那样迅速完成彻底的、未来的改变,而是要基于现有体系做融合,也就是把大模型的能力加进来。

我举个例子,搜推广有很多环节,从当下最优解去看,并不是说所有环节都大模型化就最佳。比如索引环节我可以用大模型、相关性判断环节我可以用大模型,但在个性化预估环节我其实用以前的稀疏模型也是可以的。简单来说,一些必须依靠大模型去升级的环节,我们去做升级,但并非全面推翻以往的链路。这是一种务实的方法。

这里面还有很多精细化的做法。比如我们会把大模型的能力蒸馏到相对小一点的模型上,简单说就是用大模型当老师来教小模型。

我来总结一下,在第一件事“搜推广”AI升级上,我觉得有两个关键点,第一是要把大模型用到搜推广之中去;第二是,不要做理想主义、不要追求一步到位的系统性替代,而是做融合,让传统架构和新架构各自解决擅长的问题。

第二件事是商家侧的AI进化。这包括了各种AI工具,这其实涉及了过去20多年阿里的一系列积淀。比如我们的店小蜜,我们很早就有这个产品了,只是之前用的是规则式NLP技术,今天我们把大模型用进来了。这部分其实比较好理解,我就不展开了。

第三件事就是我们的AI创新产品。我们在今年七月、八月、九月一直在测试、上线各种AI产品,我们最早的初衷肯定是希望这些AI产品能带来一些以往完全没有的体验。

我觉得这些产品背后,我们有两个共性的关键逻辑,其一是我们希望每个产品去解决一个用户痛点。我们没有去追求一个特别理想主义或者原教旨主义的东西,而是想解决问题。比如我们AI万能搜想解决复杂场景下商品推荐问题或者说需求发现问题。比如AI助手,我们解决的是挑选难度的问题。

第二个关键逻辑是,我们在做一个取舍:到底是把AI产品、工具融入到主产品的使用场景之中去,还是说以“一个超级入口”形式去通过对话解决所有问题。

我们选择融入使用场景。当然这个不绝对,但我们大部分AI创新产品,是融入或嵌入到使用场景里的,而不是通过一个独立入口去做。这背后的决策因素和淘宝用户天生的动线、习惯有关。我们需要把AI的能力,沉浸式埋入到场景里。

虎嗅:你讲的这三件事,感觉更像是水面上的冰山,水面下似乎还有很多你们做的事情。比如你们今年花了很大精力做升级商品库?(虎嗅注:从2025年初开始,淘天把过去二十余年积淀的商品信息库,做了AI升级,补充了大量更符合大模型学习、理解的商品信息,也做了二十余年来最大规模的一次彻底梳理

凯夫:你说得很对。我以搜推广为例,商品库其实就是搜推广这件事水面下的部分。因为商品库是我们做搜推广AI升级的先决条件。

搜索最简单的工作原理,就是以搜索词为出发点,用户问一个词,然后引擎把这个词和商品做匹配。这里面关键点在于商品信息。如果你的商品信息是丰富的、准确的,那么模型、算法是容易理解的,但如果商品信息缺失或者错误,模型和算法是无法理解的。

简单来说,需要想办法让商家尽量多地写商品信息。写得越清楚、越明白,我们就越容易用大模型把用户需求和商品精准匹配起来。那么怎么去丰富这些信息呢?我们叫底层数据格式的标准化。以往我们需要用大量人工,去一点点查资料、询问用户或者商家,然后补充信息。我们今年通过AI去自动丰富、补全信息,最终重新梳理了整个商品库的底层索引。

这是淘天的一个超级大项目,牵扯到技术、业务很多团队。而且这是一个缺少了AI没法做的事情。我给你举个例子,在2010年、2011年,淘宝小二每天在做丰富商品信息这件事时,会去买百科全书,比如服饰小二,可能就会买一本纺织工业百科全书,然后去查询品类商品所包含的关键属性。

我们今年用了一个AI Agent。如果没有这个AI Agent,我们想重新梳理整个商品库信息,我跟你讲我们都雇不起那么多的小二人工,那是一个巨大的工程。但AI Agent可以24小时工作,小二只需要去调教AI Agent就可以了。

虎嗅:我想追问一下,就比如你刚刚讲的这个用AI Agent去丰富商品库的细节,这是一个今年做时机恰好的事情,还是说其实去年做更好?

凯夫:这可能是一个天时地利人和的事情。2024年我们团队有一些积累,但2025年技术更成熟、技术成本更低。或者说,这件事在2025年的成熟度更高了。需求场景存在、技术成本下降、团队组织的共识更强,所以今年做这个事情挺合适。

虎嗅:我回到主线,听你刚才讲的三件事以及水面下的事情。感觉比较像是高速路上行驶的汽车要同时换引擎?

凯夫:我觉得换个比喻更合适,我们可能更像是一艘船,然后船一直在前行,我在旧引擎旁边安装了一个新引擎。等于我没有卸下之前的引擎,我装了俩。

我们在做所有产品技术升级时,我们传统的业务都在跑。我们一路是靠不断的AB测试,一点点去推动进化的,测试后数据说话。

虎嗅:你刚才提到的商品库,感觉它其实是未来若干年淘天生存发展的一个新基础设施?

凯夫:你可以这么理解。

虎嗅:那今年你们做的这些事情或者项目,还有什么可以属于这个范畴?

凯夫:我觉得整个搜推广都属于这个范畴,这是非常底层的大基建。

虎嗅:这些事情,都是过去八个月左右完成的?

凯夫:我们之前有过一些讨论,然后开始做是三月份。搜推广整体的进化,其实是一个连续的过程,之前几年我们也在不断更新。但今年三月份开始,我们在搜推广上开始有比较大规模的投入,包括针对大模型的算力、资源的投入。

但我觉得,很多事情,确实是淘天这些年动作的延续。比如生意参谋、店小蜜我们都做了很多年了。今年跟以往业务节奏上的差异,我觉得是大项目多一些,比如商品库就是大项目。

虎嗅:大项目你们是怎么定义的?

凯夫:就是时间长、投入的资源人力多,一般都是一些相对底层的东西。我们今年团队的勇气确实是值得嘉奖的,因为我们挑战了一些以往很多年没动的事情。商品库其实我们过去十几年并没有大的质变。

虎嗅:听你刚才分享的内容,这种大项目少不了AI这个生产力。之前和你聊,你并没有通过OKR这些手段去强推团队用AI工具,今天你依然保持这个思路吗?

凯夫:我更希望大家是需求驱动。以商品库这件事为例子,其实根本不需要定一个AI工具相关OKR,因为没有AI这件事是做不出来的。

虎嗅:从外界视角看,你们做的这些事情,其实是“动筋动骨”的,但同时你们要确保用户体感在线。这种平衡是怎么保持的?

凯夫:我们是逐步“切流”,通过新老并存的方式去一点点测试,我们叫灰度上线。其实这些事情,也是靠一个个补丁打起来的。

上一篇:66次延时激烈竞拍,有人花275万拍到尾号66666666手机号 法官:若5天内悔拍,要扣40万保证金
免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。

2、如因作品内容、版权和其他问题请与本站管理员联系,我们将在收到通知后的3个工作日内进行处理。