18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 行业动态 > 大数据魔术的背后是什么?

大数据魔术的背后是什么?

时间:2022-03-26 22:54:01 | 来源:行业动态

时间:2022-03-26 22:54:01 来源:行业动态

如你所见,从大数据中获取价值并不是魔术。这只与技术解决方案以及如何应用它们有关。根据我的经验,对于大数据处理,我建议使用以下流处理框架:Apache Storm、Spark Streaming和Kafka Streams。当然,它们都有不可思议的特点,也都有一定的操作局限。根据我的经验,以下是每种工具的特点概述。

1. Apache Storm

- 低延迟

- 成熟(经过充分测试和广泛应用)

- 高通量

- 非常适合简单的流用例

- 可扩展,可跨多个计算机集群运行的并行计算

- 容错(自动重启节点,并且跨节点重新定位工作负载)

- 本机流

2. Spark Streaming

- 结合了批处理和流处理(Lambda体系结构支持)

- 高通量

- 成熟

- 即使发生故障,记录也会被处理一次

- 机器学习库提供了一组机器算法,用于分类、回归、协同过滤等。

- 默认容错

3. Kafka Streams

- 融合了Kafka的最佳功能,不需要单独的集群

- 国家管理

- 一次性,端到端(即Kafka既是来源又是目的地)

- 本机流

- 结合使用分布式消息传递系统和传统消息传递系统,实现存储和流处理(这提供了更好的流数据管道可测量性、低延迟和更好的存储功能,并确保了与脱机系统的集成,该系统是为了防止系统崩溃而存在的。)

对于上述用例,我建议使用Spark Streaming。它适合该项目,因为它已与高级分析工具进行了集成,并允许你在离散化流的驱动下通过微批处理执行流处理。此外,Spark Streaming是Hadoop和Azure HDInsight生态系统的一部分,因此,如果你已经在使用Hadoop,它将可以集成到你的大数据堆栈中。

关键词:数据

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭