18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 行业动态 > 问:Linkedin都采用了哪些大数据开源技术?

问:Linkedin都采用了哪些大数据开源技术?

时间:2022-02-20 16:10:01 | 来源:行业动态

时间:2022-02-20 16:10:01 来源:行业动态

在LinkedIn有很多数据产品,比如People you may like、Job you may be interested。你的用户访问来源,甚至你的career path都可以挖掘出来。Linkedin也大量用到了开源技术,我这里就说一个最成功的Kafka。Kafka是一个分布式的消息队列,可以用在tracking、机器内部metrics、数据传输上。数据在前端后端会经过不同的存储或者平台,每个平台都有自己的格式,如果没有一个unified log,会出现灾难型的O(m*n)的数据对接复杂度。如果你设定的格式一旦发生变化,也要修改所有相关的格式。所以这里提出的中间桥梁就是Kafka,大家约定用一个格式作为传输标准,然后在接受端可以任意定制你想要的数据源(topics),最后实现线性的O(m n)复杂度。对应的设计细节,还是要参考设计文档 ,这里面主要作者Jay Kreps、Rao Jun成立了Kafka作为独立发展的公司。

Hadoop作为批处理的主力,大量应用在各个产品线上。比如广告组,我们一方面需要去做一些灵活的查询,分析广告主的匹配、广告预测和实际效果,另外在报表生成方面也是用Hadoop作为支持。如果你想去面试LinkedIn 后端组,我建议应该去把Hive、Pig、Azkaban(数据流的管理软件)、Avro 数据定义格式、Kafka、Voldemort 都了解一下。LinkedIn有专门的开源社区,也是在建设自己的技术品牌。

关键词:数据,技术,采用

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭