大数据魔术的背后是什么?
时间:2022-03-26 22:54:01 | 来源:行业动态
时间:2022-03-26 22:54:01 来源:行业动态
如你所见,从大数据中获取价值并不是魔术。这只与技术解决方案以及如何应用它们有关。根据我的经验,对于大数据处理,我建议使用以下流处理框架:Apache Storm、Spark Streaming和Kafka Streams。当然,它们都有不可思议的特点,也都有一定的操作局限。根据我的经验,以下是每种工具的特点概述。
1. Apache Storm
- 低延迟
- 成熟(经过充分测试和广泛应用)
- 高通量
- 非常适合简单的流用例
- 可扩展,可跨多个计算机集群运行的并行计算
- 容错(自动重启节点,并且跨节点重新定位工作负载)
- 本机流
2. Spark Streaming
- 结合了批处理和流处理(Lambda体系结构支持)
- 高通量
- 成熟
- 即使发生故障,记录也会被处理一次
- 机器学习库提供了一组机器算法,用于分类、回归、协同过滤等。
- 默认容错
3. Kafka Streams
- 融合了Kafka的最佳功能,不需要单独的集群
- 国家管理
- 一次性,端到端(即Kafka既是来源又是目的地)
- 本机流
- 结合使用分布式消息传递系统和传统消息传递系统,实现存储和流处理(这提供了更好的流数据管道可测量性、低延迟和更好的存储功能,并确保了与脱机系统的集成,该系统是为了防止系统崩溃而存在的。)
对于上述用例,我建议使用Spark Streaming。它适合该项目,因为它已与高级分析工具进行了集成,并允许你在离散化流的驱动下通过微批处理执行流处理。此外,Spark Streaming是Hadoop和Azure HDInsight生态系统的一部分,因此,如果你已经在使用Hadoop,它将可以集成到你的大数据堆栈中。