时间:2022-02-20 16:10:01 | 来源:行业动态
时间:2022-02-20 16:10:01 来源:行业动态
在LinkedIn有很多数据产品,比如People you may like、Job you may be interested。你的用户访问来源,甚至你的career path都可以挖掘出来。Linkedin也大量用到了开源技术,我这里就说一个最成功的Kafka。Kafka是一个分布式的消息队列,可以用在tracking、机器内部metrics、数据传输上。数据在前端后端会经过不同的存储或者平台,每个平台都有自己的格式,如果没有一个unified log,会出现灾难型的O(m*n)的数据对接复杂度。如果你设定的格式一旦发生变化,也要修改所有相关的格式。所以这里提出的中间桥梁就是Kafka,大家约定用一个格式作为传输标准,然后在接受端可以任意定制你想要的数据源(topics),最后实现线性的O(m n)复杂度。对应的设计细节,还是要参考设计文档 ,这里面主要作者Jay Kreps、Rao Jun成立了Kafka作为独立发展的公司。关键词:数据,技术,采用