构建新型数据基础设施
时间:2022-04-27 02:30:01 | 来源:行业动态
时间:2022-04-27 02:30:01 来源:行业动态
随着企业数字化转型的加速,企业日常运营中产生的数据量呈指数级增长,且数据的类型更加多样化,数据的应用场景日益繁杂,以及基于实时数据的快速决策越来越普及,单一的数据仓库或者数据湖解决方案满足不了用户对数据挖掘和使用的需求。于是湖仓一体架构成为云原生时代数据架构演变的必然趋势。
百度智能云湖仓一体架构的优势主要体现在三个方面。
首先是云原生,它是数仓基础架构的一个基本的演变方向。百度智能云云原生湖仓架构以云为基础,为客户提供弹性、低成本的数据存储和按需伸缩的计算资源。在存储上,百度智能云BOS是业界领先的数据湖对象存储;在计算上,BMR是灵活、高性价比的托管大数据处理,凭借先进的计算存储分离架构、智能弹性伸缩技术确保高可靠的同时,真正帮助用户实现用时高效获取资源、闲时及时释放资源,用最低的成本获取最高的计算性能。
其次,百度智能云通过数据湖架构为客户提供全面的数据分析能力。百度Palo是数据湖分析能力的核心产品,是百度基于Apache Doris构建的企业级MPP数据仓库,专门应对高并发、低延时的PB级实时数据仓库使用场景,全面兼容MySQL协议,可以毫秒级、针对亿万级数据进行及时的多维分析透视和业务探查。
在架构上来看,Palo与常见的分布式存储系统的架构有些不同。Palo主要有FE(Frontend)和BE(Backend)这两类系统进程,其中FE可以理解为Palo的管控节点,主要负责用户请求的介入、查询计划的解析、元数据的存储以及集群管理等工作,BE主要负责数据存储以及查询计划的执行,这两类系统进程都可以横向拓展,而不需要依赖任何第三方系统(如HDFS、ZooKeeper等),这样高度集成的架构设计也极大简化了一款分布式系统的运维成本。同时Palo在FE进程中实现了MySQL兼容协议层,这样用户通过标准MySQL客户端或其他各类工具即可便捷连接到Palo,并且Palo还支持标准SQL语言,不论是简单的单表聚合、排序过滤或复杂的多表关联、子查询、窗口函数、自定义函数等,都可以通过SQL快速完成,极大减少用户的使用成本。
使用Palo时,可以从本地、RDS、BOS、百度智能云MapReduce等导入海量数据,进行大数据的多维分析。同时Palo还兼容主流BI工具,数据分析师可以通过可视化的方式分析和展示数据,快速获取洞察以辅助决策。此外,Palo还提供了全新UI支持,5分钟上手,轻松实现建库建表、数据导入、数据查询。
最后,百度智能云利用数据湖管理与分析平台EasyDAP,以统一元数据为抓手,一站式完成数据集成、治理、开发、分析、服务。EasyDAP是全场景、低门槛、兼容开放、安全可靠的一站式数据湖管理与分析平台,其服务范围覆盖数据集成、数据管理、数据治理、数据开发、数据分析、数据服务,实现采、存、管、用一体化。