时间:2024-02-21 07:20:02 | 来源:网站运营
时间:2024-02-21 07:20:02 来源:网站运营
阿里双11集团技术总指挥汤兴:一场不亚于移动化的变革已经发生:2019年11月11日,阿里巴巴所有技术人经历了第11次技术大考。这一年,阿里巴巴实现了核心交易系统 100% 上云,总销售额达2684亿元。核心交易系统百分百上云可以说是整个基础设施最大的变化以及技术突破,在此之外,阿里巴巴的整个业务形态也发生了巨大改变。在QCon全球软件开发大会(北京站)2020 即将召开之际,InfoQ采访到了担任此次大会联席主席的阿里巴巴副总裁、2019年双11集团技术总指挥汤兴(花名:平畴)。本文将与你分享这场意义非凡的变革以及阿里新零售的技术方向。
1. 从爱奇艺CTO到淘系技术掌门人
2019年,汤兴正式加入阿里巴巴集团,任职阿里巴巴集团副总裁,花名平畴。整体负责包括淘宝技术、天猫技术、农村淘宝技术、闲鱼、躺平 等多个团队组成的新零售技术事业群淘系技术部。
翻开平畴的履历,他拥有超过十年全球 TOP IT 公司研发及管理方面的工作经验。加入阿里之前,平畴最近的一份工作经历是任职爱奇艺 CTO,他带领爱奇艺技术团队建立起全球首个基于视频数据理解人类行为的视频大脑——爱奇艺大脑,让机器能够理解视频内容,并领导在视频社交领域推出爱奇艺泡泡,开创了视频社交先河。
双11现场的平畴
双11之前,阿里宣布由平畴担任本届双 11集团技术总指挥,从视频领域到新零售领域,角色转变的同时,还要带领技术团队面对双11流量高峰的挑战,压力可想而知,但平畴很快就适应了这种变化。
看懂两者之间的内在联系与差异,就很容易在两个领域切换和适应。
采访中,平畴表示,视频是内容行业,本质上是内容虚拟商品的供给与需求匹配。阿里是电商行业,主要是实物商品的供给与需求匹配,两者既有相同之处也有不同之处,比如一个没有库存,一个有库存;一个通过线下物流履约,一个通过线上数字媒体传送;一个侧重营销交易活动运营,一个侧重主题运营活动等。无论是虚拟数字经济还是实物经济,都脱离不了零售的本质,供给与需求的有效匹配,而技术体系的框架也基本类似。
2. 第11个“双11”:一场堪比无线化的变革
2019 年,双 11 直播已成为淘宝内容生态里程碑式的节点,其意义可对标当年的无线化变革。
回忆起2019年的11月11日,平畴表示,淘宝经历了一场意义完全不亚于无线化的变革,那就是直播。
如今,不知还有多少人对淘宝当年的那场无线化变革印象深刻。
2013年,移动化的浪潮来了,所有人都感受到了移动化即将带来的巨变。阿里集团一声令下,正式宣布“ALL IN 无线”战略,很多人被从原有部门放到战场最前线,有人不适应走掉了,后续的再补上,就这样不断调整和优化。
2016年,现任阿里巴巴CEO张勇正式向外宣布淘宝网与无线淘宝合并,淘宝成功从PC时代转型为移动时代。事后证明,如果不是这场变革,我们很难见到如今的淘宝。
业务形态在变,技术必须跟上
“在云原生的大潮下,新一代的技术变更可能才刚刚开始,核心交易系统百分百上云可以说是整个基础设施最大的变化以及技术突破。但是,在基础设施的变化之外,整个业务形态也发生了巨大改变。”
平畴在采访中对InfoQ表示,这种业务形态的改变指的就是直播。淘宝从2015年就开始做直播,短短四年打造了一个年成交千亿的行业。
2019 年,双 11 直播已成为淘宝内容生态里程碑式的节点,其意义可对标 2015 年的淘宝无线化。当天,淘宝直播成交近 200 亿 (2019年双11总交易额为2684亿元),超过 50% 的品牌商家通过直播获得增长。
如今,直播已经成为天猫双11商家的标配,直播的内容形式与图文截然不同,更强调实时互动和流畅的观看体验,而这些特点对消息通道、网络和 CDN 等软硬件资源 提出了苛刻的要求。
既要保证用户体验,又要追求技术上的最低成本,包括最小带宽消耗、最大机型覆盖等。平畴带领的技术团队遇到了很大挑战。
为了解决直播中可能遇到的问题,淘宝直播技术团队自研音视频实时通信引擎,采用去中心化的设计方式,支持横向级联,实现大规模低延时直播,时延从原先的5到7秒降低至 1 秒内,并在弱网下有更好的表现。
虽然做足了准备,但平畴回想起当下,坦言还是有些担心:“很怕发生预期外的问题,尤其是新场景、新用户动线和新架构。”
实践证明,历年双11期间产生的相对严重问题,往往都不是我们预先最担心的问题,甚至绝大多数可能不在预期内。
道理很简单,无论项目的挑战或风险有多大,只要在双11前能预想到,技术侧就一定会做好预案应对最差情况,并且做好演练工作。对于预期外的问题,往往是没有准备预案或者预案有效性没有经过验证,遇到这种情况就非常挑战整个技术团队应急解决问题的能力了。不过,这也是双11的魅力所在:
我们永远没有办法对所有问题做好预案,永远有未知的挑战在前方等待,而我们唯有通过技术升级去不断地逼近那个能够做到的最好的极限。
所以,对技术人来说,双11永远没有做的最好,只有做的更好。
3. 提前一年,决定上云
今年双11,我们把“最要命”的系统全都放在云上。
这是当时阿里巴巴集团CTO、阿里云智能总裁行癫在双11当晚说的一句话。如开篇所言,2019年双11,阿里实现了核心交易系统 100% 上云,而这个决定早在一年前就做出了。
“每年双11结束,全集团都会进行一次全面的技术复盘,除了复盘在整个双11过程中的得与失,更重要的是,确定下一年双11技术的整体方向。2018年双11复盘时,集团就整体确定了将核心电商搬到云上的大策略。”
2019年1月份,上云项目正式启动,这个项目在阿里内部被称为“云创未来”。电商核心链路全面上云意味着没有云下的资源做切换与互备,平畴表示,这涉及到阿里电商数百个核心应用,上万台物理机台,总核数过百万核。可想而知,这其中的挑战有多大。
分步迁移:Q3季度进入大规模应用开发
为了实现这个目标,从机房到软件部署、网络拓扑、中间件等一系列基础设施都要先行准备并且在更早一些的大促,比如618大促中验证有效性。平畴透露,除基础设施外,每年上半年是业务上各类技术平台与框架升级迭代的黄金期,等到7、8月份,再结合双11业务的具体玩法逐步进入业务应用的大规模开发期间。
按阶段来看,平畴表示,双11上云在技术层面可以分为如下三个部分:
1、平稳迁移上云;
2、稳定使用云服务;
3、结合云技术探索新的高效研发方式。
第一阶段:应用迁移上云。
平畴表示,在这个过程中,最大的风险来源于云上基础设施和中间件等产品的变化,应用需要配合这些变化进行改造和升级。
梳理清楚这些变化后,技术团队才有依据判断需要进行哪些相关的应用改造与升级工作,来规避重大风险。在这个过程中,淘系技术推动了中间件二方库升级、版本检测、日志异步化改造、缓存集群迁移等工作,建立了一套应用升级检测的自动化机制和升级流程管理,确保所有应用升级到位,并在云上布署最小业务集群,能够通过自动化业务功能回归来验证迁移后的业务功能一致性。
其次,迁移过程必须有很强的可控性,具备快速容灾能力。平畴表示,淘系技术会通过线上流量的复制进行压测,全量回归云上的应用确保不出现性能退化。压测的同时,技术团队准备好快速切流逃逸的方案,在原有的异地多活的容灾基础上把中心机房建立成4个逻辑机房, 实现一键在同城4个逻辑机房之间的容灾逃逸能力,并经过多次验证。在具体迁移的过程中,小步骤切流,同时加强云上监控,避免突发性大面积问题出现。
第二个阶段,建立上云保障小组。
淘系内部将云和电商相关的研发一起拉通,明确响应机制和负责人,打通两边的变更系统和告警系统,细化云告警信息中明确关于电商应用相关的信息。通过不定时的模拟攻击云环境,推动两边对故障处理的应急能力提升。
新零售线专门成立了上云、用云项目组,阿里云也有专门的项目成员进行对接。同时,我们有专业的PMO来保障跨团队的项目合作,保障日常的周/月例会进行信息同步以及项目推进,针对演练中不同的线上问题有专门的应急机制,双11项目的横向拉通保障工作也随着多年的技术升级而不断沉淀经验。
为了保障云上的容载能力,双11技术项目组组织了多次云上突袭演练,演练云上单元机房不可用情况下的应急手段。通过持续迭代逐步将核心业务搬到云上,过程中持续进行云上回归测试以及切流演练,在双11前的几次大促中也验证了线上的用云稳定性。
第三个阶段,结合云技术探索新的研发方式。
上云的过程中,云技术在向云原生发展。除了神龙服务器(阿里云弹性裸金属服务器)之外,新的ASI容器也大规模使用。为了探索Serverless的价值,淘系技术结合云技术构建了自己的函数平台FaaS,覆盖淘宝互动、闲鱼、导购、躺平等多个业务场景。这个平台一方面大幅提升了研发效率,另一方面提供了云端一体的轻量级研发方式。
(淘系自研云端一体函数平台 Gaia架构图)
在上云的过程中,我们看到基础设施变厚了,研发变得轻了,推动业务研发从Procode走向Lowcode,进而聚焦业务研发,可以更大地释放研发生产力。
4. 端侧AI决策140亿次
上云、做AI,这是近两年所有重视技术研发的科技公司的大主题。在上云之前,阿里淘系就开始研发端侧的智能应用,这也符合当下国人的消费习惯,大部分消费者习惯通过移动端进行交易。
2019年,手淘大规模使用端上AI技术,在客户端实现对用户行为的实时感知,应用深度神经网络进行用户意图识别,并根据识别结果进行智能决策,做到推荐内容的实时更新,大幅提升个性化推荐效果和用户体验。
2019年双11当天,端侧AI决策一共运行了140亿次, 对于信息流的个性化推荐、消息的智能投递、直播的商品智能检测,效果上都有非常大幅度的提升。平畴表示,淘系技术部的轻量级深度学习端侧推理引擎MNN已经开源,这种有效利用云与端的各自数据和计算优势的方式一定是未来的发展趋势。
除了端侧的AI技术研发,阿里淘系也正在将深度学习、机器视觉和3D技术结合在一起,形成3D AI的方向,并将之应用于躺平家装和家居领域。
最近五到十年,人工智能技术有了突飞猛进的进展,集中表现在深度学习,以及深度学习和人工智能问题的结合上,但是越来越多人对于人工智能技术是否可以再取得突破有所疑虑。平畴坦言,过去两三年,业界对人工智能的作用有过度夸大。人工智能提升甚至创造新的场景需要和业务、产品、工程的深度结合,这需要较长的时间摸索。理想和现实的差距让人们转而认为人工智能达到了瓶颈,这是缺少对技术到产品转化规律的耐心和尊重的表现。
新的人工智能应用场景的出现不仅需要人工智能技术发展这单一的条件,更是依赖数据、业务和产品的发展。因此,开发人工智能新场景不仅仅是人工智能技术团队的工作,也不是简单的理论结合实际,而是需要打造基础设施、新产品、新的数据的积累。有了这些条件,人工智能的新场景才会源源不断的孕育出来。
人工智能是战术,核心还是具体场景的需求满足,如何准确定义场景和相应的衡量体系才是人工智能发挥所长的前提。
5. 未来规划
2019年的双 11 过后,阿里内部同样召开了一场复盘会。平畴透露,2019年的双11是技术历史上消费者最顺滑的一次,交易核心链路全面上云,淘宝直播的同时在线人数也创了历史新高。未来,阿里会持续不断提升购物车、下单等核心链路的消费体验,同时通过技术升级的手段大幅优化整体资源使用效率,降低大促过程中的技术资源使用成本。
接下来,阿里淘系的研发重点会聚焦在5G可能带来的技术创新。平畴补充道,随着5G的发展,网络速度越来越快,视频和直播的普及度越来越高。对于淘宝和阿里来说,传统的电商是基于图文和用户进行交互,5G会带来新的购物方式。目前来看,直播是一种新的变化,5G的部署可能会让直播上出现AR互动,底层的低延时直播相关技术(编解码、低延时通信)应该也会给消费者带来新的消费体验。
此外,AI、端计算、基于物理的3D渲染等技术在业务上的实施和应用也是十分值得关注的技术。比如,阿里巴巴旗下家居家装平台躺平,将AI技术应用到智能家居、家装领域,智能化、自动化地为用户提供专业设计师水准的软硬装设计方案,并且基于物理的3D渲染技术能够将设计师的设计方案渲染出照片级的逼真效果。同时,以全链路数字化改造为基础,以用户定制化、场景化为消费者提供服务,形成端到端的解决方案,提供一站式全屋解决方案。这些技术的高度结合才能创造极致的用户体验。
# 采访嘉宾 #
汤兴博士,现任阿里巴巴副总裁,领导包括淘宝技术、天猫技术、农村淘宝技术、闲鱼、躺平 等多个团队组成的新零售技术事业群淘系技术部,致力于打造消费者和商家一体化的新零售智能商业平台,开创场景化新赛道。汤兴博士拥有超过十年全球 TOP IT 公司研发及管理方面的工作经验,曾任谷歌上海研发中心技术总监,负责了 Google 视频搜索业务及参与 YouTube 视频搜索服务的研发,后加入爱奇艺担任 CTO,全面推动了视频行业产品技术用户体验的创新和发展。——文章转载自InfoQ
关键词:移动,变革,集团,技术,指挥