Hadoop/Spark
时间:2022-03-29 17:00:01 | 来源:行业动态
时间:2022-03-29 17:00:01 来源:行业动态
自大数据兴起以来,更强的计算机及更成熟的大数据平台工具使企业掌握挖掘数据价值的技巧。目前国内已经广泛应用于制造、金融、电信、医疗以及能源领域,这些领域每天都有数以亿计的数据产生,对于大数据资产的存储、挖掘、分析等流程都有一定的要求。
Hadoop是由Doug Cutting于2005年发起的项目,采用开源软件框架对超大数据集进行分布式存储技术及分布式处理。换句话说,设计这一产品的目的在于缩减处理大数据集的时间及成本。Spark是近年来新兴的一个分布式大数据处理引擎,采用了类Hadoop MapReduce的通用的并行计算框架,而不同于MapReduce的是输出和结果可以保存在内存中,性能更好,因此能更好地适用于数据挖掘与机器学习等应用,一度被认为有望取代Hadoop。其实,这两者协作要大于竞争。