商品数据智能化
时间:2022-03-26 04:39:01 | 来源:行业动态
时间:2022-03-26 04:39:01 来源:行业动态
在商品数据的存储和计算基础设施构建之后,近两年来,京东主要的工作就是做数据的智能化。接下来分两个方面给大家做一下介绍,一是图片的智能,二是文本的智能。
首先,我们用AI去重塑商品系统。大家可以看到,过去京东图片数据的增长量,如今已经达到千亿级规模,这样快速的数据扩张会使得整个IDC的流量成倍增加,进而增加IT成本。因此,我们必须要对图片做智能压缩从而降低运营成本,提升用户的体验。对此,京东推出了YOP技术,它可以把所有的图片大小降低30%。同时,在今年年初,我们还推出了DBT的全新技术,它可以在YOP的基础上将图片缩小将近50%,不仅减少带宽,还可以提升终端用户加载。特别是对于商品自身的特性,在这个过程当中,我们还通过优化压缩了三倍。
在图片方面的第二个重要应用就是图片的合成。大家知道,对于任何一家电商来说,在很多活动或广告推广之前都是由UED先进行编辑的。但是,从去年下半年开始我们做了一个工作,实现了1%的图片都由机器进行合成。这个工作分成三个部分:一是对商家的原图做智能扣图,二是学习UED的智能排版,三是系统功能的优化工作,把扣图以及美学排版进行高质量合成。当前,我们机器合成的图片数量大概占了商品总数的1%,预计两年之后这个比例可能会达到15%到20%,也就是说常见的活动商品图都会由机器来做。
在这样一个流程中,很多设计师的排版经验是可以学习的。现在由机器和算法来进行一些简单商品详情页的排版、自动合成,不仅减少了很多人工同时也可以大大提高效率。当然,现在这个工作还在进行当中,还需要一些时间去落地。除此之外,图片的智能化还包括相似图片的搜索。结合智能排版技术对图片的翻译做自动化,借助全球化战略,京东希望能够最终实现快速的全球化商品推送。
第二部分是商品文本数据的智能化,其中最重要的是个性化广告和搜索。这两年,我们做的一个基础服务是商品知识图谱,即对包括工业数据和用户生成数据等在内的商品基础数据做进一步的挖掘和抽象。通过对商品工业数据做属性判断,做类目的进一步抽取,对用户评价做情感和关键词的挖掘,从而形成一个中间的知识服务,或者说图片数据。在此基础上,向上赋能更多智能应用,包括搜索和个性化索引等等。
举两个例子:一是核心产品词的识别,这是一个经典的命名识别问题,在商品词里边有一个独特的挑战,就是因为这个词是商家自己录入的,如何找到核心商品的真实标题,这目前在学术界都没有很好的解决方案。为此,我们通过对规则、知识库进行建模来解决。
再比如评论关键词的抽取,因为这是用户收录的,口语话非常严重。因此,如果我们要把这个口语话设置为一个高质量标签,需要有很好的方法才能构建商品评价的语意知识库。基于商品图谱,除了广告、搜索之外,我们还建立了智能客服机器人。这个是成都的一个研发团队来做的,基于商品图谱去做优化和赋能。
另外一个智能应用就是写作机器人。刚刚谈到了,图片可以由机器合成,而一些商品的导购语和活动短文也可以由机器去合成。它基于知识图谱的一些标签和推理检索能力,加上机器深度学习的语言生成,从而节省人工创造的成本。
总结来说,在商品大数据领域,我们主要做的几个工作首先就是存储,其次是计算,以此为基石向上再去构建知识图谱,以进一步优化智能化的服务。当然,和其他行业相比,这个领域自身存在着很多不一样的挑战,虽然目前我们取得了一些进展,但还有很多的工作都在开展过程当中,希望接下来能够得到在座的专家和同行们更多的建议和指导。
谢谢!