他们从5%看到了未来
时间:2022-03-04 08:12:01 | 来源:行业动态
时间:2022-03-04 08:12:01 来源:行业动态
前面提到的聚望,是巴拿马项目的负责人之一。他原本属于旺旺团队,整个团队一起并入钉钉IM,联合钉钉和手淘大几十人团队一起再次发起了攻坚战。
还剩不到半年时间,两大挑战摆在聚望团队的面前。
挑战一:到底要为手淘打造一个什么样的IM平台?
虽然第一战要攻克的是手淘难题,但钉钉的初衷不仅是打通淘宝,而是做整个阿里巴巴的消息技术平台,所以他们既要满足淘宝对IM的定制化需求,同时也要建立一套可以支撑所有阿里生态内应用的通用技术架构。
搭建一套什么样的架构?实现哪些功能?哪些功能由淘宝自己的业务团队实现?这些问题像一重又一重的关卡摆在巴拿马团队面前。
挑战二由阳凯发起,阳凯从2010年就开始参与双11的技术保障,2018年开始作为钉钉双11技术风险的负责人,同时也是双11钉钉的技术大队长,他的核心职责就一个词:保稳定。
对阳凯而言,在双11这种大考里换新系统,这就是最大的不稳定因素。一个新系统要在双11承担5%的流量,还是核心交易消息,我是持怀疑态度和反对态度的。阳凯说。人人都在兴奋,但在这场开着飞机换引擎的战争里,总要有人扮演一个演练失败的角色,让风险发生在事前,而不是双11中掉链子。
因此他几乎天天给聚望泼冷水,想方设法地提出可能出现失败的情况。预案充分吗?新系统的性能承压行不行?为什么一定要在双11上,不能双12吗?
压力来到聚望带领的巴拿马团队身上。这一次,巴拿马项目不再打算采用将钉钉集成到淘宝当中的方案,而是用钉钉的技术能力和创新能力搭建一套全新的技术系统IM PaaS平台。
对做了多年旺旺消息技术的聚望来讲,前一套方案是旺旺的升级版,但也仅仅只是升级版,要做就做大的。
聚望说:我们希望为所有的业务提供一套高可用、高稳定性的消息平台,未来业务团队只考虑业务场景的创新,而不用担心底层的技术。
此时的他,心中也有一个没有说出来的想法。从事IM平台技术多年,聚望知道单从技术上看,IM系统的门槛不高,但一个独立团队想做到优秀,需要投入的人力、资源和时间,不亚于重做一套钉钉。如果这套消息平台做到足够成熟,未尝不可能有一天从阿里走出去,成为业界的的一个通用IM平台。
为阿里打造的消息技术中台,钉钉拿出了全部本领,在高可用、高稳定、高扩展的基础上,钉钉IM PaaS平台和存储团队合作开发,对存储模型进行优化,支持读写扩散、异地容灾、智能流量管理、同步平台升级、消息队列升级、SmartOps平台等技术创新。
对消费者而言,他们并不知道淘宝、千牛、旺旺甚至淘特底层采用同一套消息平台。但不管是登录哪一个应用,钉钉的IM PaaS平台都可以保障多端消息同步。即便重新安装,所有的数据都在。聚望说。
2019年6月,巴拿马项目各项功能开发完成,他们特意举办了一场showcase表演,南星导演,达野摄影,聚望策划,整个项目组的人在会议室里都显得十分兴奋。
南星说:那一天就像是一座大桥的左右两边合龙,对钉钉和淘宝而言,都是一个重要的里程碑。
大桥合龙后,还要经过无数次测试和真正的通行才能宣告成功。2019年双11,尽管阳凯从9月开始就不断的向他们发起挑战,但钉钉IM PaaS非常坚决,他们一定要在这一年承接5%的核心交易消息流量。
这一天终于来了。双11当天,光明顶灯火通明,即便是经验最丰富的阳凯也因为IM PaaS的上线感到无比紧张。消息链路某种程度比支付和交易更需要稳定,因为钉钉还担负着故障应急和内部协调的责任,承接5%的核心交易消息听起来并不多,但放在双11这一天却会影响上千万人。
假如双11当天,消息系统出问题会怎么样?聚望非常严肃地回答:如果消息出问题,最坏的情况下,交易会下跌20%。
2019年双11的GMV是2684亿,20%是多大的体量,无需赘言。
因此钉钉IM PaaS团队必须谨慎再谨慎,他们从5万用户规模、100万用户规模、1000万用户的规模,2000万用户规模,做了多次容灾演练,保障即便双11真的出现问题,也能从容的从新系统切回老系统。
万事俱备,但这一夜并不顺利。零点之前,按照预案,聚望团队为了提高双11系统的整体性能,撤掉了一些过度占用资源的防御性系统,但之后不久,意料之外的攻击出现了,消息系统遭到了大量运营类垃圾消息的冲击,系统很快就要撑不住了,我们的神经更是如此。
聚望立即组织团队现场写脚本进行攻防,将违规账号从系统出提出进行限制。直到熬过零点后的半小时,这激烈的消息系统保卫战才结束。战斗结束后,虽然作战室内没有人立即说话,但所有人都不约而同的松了口气。
所有人都知道IM PaaS这一仗,钉钉打赢了。