建立在大数据平台上的现代数据仓库
时间:2022-04-19 14:18:01 | 来源:行业动态
时间:2022-04-19 14:18:01 来源:行业动态
随着开源软件的普及,Hadoop在企业中得到越来越广泛的普及,越来越多的企业开始在Hadoop上建立各种商业应用,在这趋势之下,一些企业开始在基于Hadoop的大数据平台进行部分数据的分析工作。随之而来的问题就是,同样都是数据分析,是否一定要建立两个平台:一个是对应传统结构化数据,一个对应非结构化数据,能否统一到一个平台,比如大数据平台。
答案是肯定的,数据分析平台完全可以统一到大数据平台上。实际上,企业完全可以选择从一开始就将整个数据仓库规划在Hadoop 之上,传统数据仓库架构的主要创始人Ralph Kimball 博士在2015 年发表专题演讲时证实了Hadoop 是可以完全取代MPP 来建立数据仓库的。在全球范围内,已经有很多企业将他们的数据仓库完全建立在Hadoop 之上,从而能够实现更加优越的可扩展性、更高的性价比,以及更好的灵活性。比如,在实际应用中,即使是规模只有5 个节点的小集群,使用Hadoop 与其他技术选项相比,也能够取得更好的产出、带来更多的业务价值与竞争力。
而就技术本身而言,相对于已经具有数十年历史的传统数据仓库,虽然不能说作为后期之秀的Hadoop平台已经具有了匹敌传统数据仓库这么完整的生态,但在技术成熟度上,基于Hadoop的大数据平台已经具备了企业级数据仓库的基本特性。
以Cloudera 分析型数据库版本为例。Cloudera 分析型数据库已经在全球最大的900 多家组织机构里运行,2018 年8 月Cloudera正式推出了最新一代Cloudera 数据仓库版本。升级后的Cloudera 数据仓库版本提供了企业级混合云解决方案,包含了混合计算、混合存储、混合控制三大关键因素,专为实惠经济、强大可扩展的自助服务分析而构建。这款产品覆盖了数据仓库的整个生命周期,包括数据接入、存储、管理、查询、运行状况检查等等。
Cloudera 数据仓库版本适用于以下三场景:
? 将ETL 任务从(EDW)企业数据仓库迁移到Cloudera 大数据平台,极大地释放EDW 处理能力;
? 自助BI 和探索性分析;
? 对EDW 优化,通过 EDW 和Cloudera 大数据平台的混搭结构可以降低数据存储成本,提高数据处理和分析能力,充分发挥两套系统各自的技术优势。
采用Cloudera 数据仓库构建大数据平台可以带来前所未有的数据规模和灵活性。首先,Cloudera 提供统一、可扩展的平台,可以处理不同来源、不同类型的全量数据,以推动新的业务洞察。其次,Cloudera 的平台提供高性能的SQL 查询工具,支持大数据量高并发访问。第三,Cloudera 是唯一一个通过PCI 安全认证的Hadoop 平台,内置安全管控和数据治理模块,可以确保数据安全。第四,采用开源技术,可避免技术锁定的问题。
国内某城市商业银行就率先体验这一迁移的好处。该城商行于2013 年购买了某企业数据仓库平台(20TB),建立全行统一的单一业务视图。但是,随着业务量的不断增长,原有数据仓库方案架构封闭、性价比低、应用面窄、厂商依赖等诸多问题日益突出。为了避免每年花费大量经费来扩展该企业数仓平台基础设施,该城商行改用运行在X86 标准硬件上的Cloudera 大数据平台逐步替代。目前,该城商行已经将大部分的传统企业数据仓库应用迁移到Cloudera 大数据平台,包括CRM、监管报送、自助化分析、取数以及风险合规相关应用。同时,也基于大数据平台新建了一些应用,例如:实时营销和欺诈监控、在线明细查询等等。