2.MPP技术框架的调研
时间:2022-03-09 14:33:01 | 来源:行业动态
时间:2022-03-09 14:33:01 来源:行业动态
为解决实时分析的时效性,同时又能保证数据快速写入,并且能够对外提供一个较为统一和简单的OLAP数据平台。我们先后调研了ClickHouse、StarRocks、Kudu。并针对我们的业务分析和业务痛点做了以下测试。
ClickHouse:虽然具备较好的OLAP分析性能,但因其底层的架构设计,集群模式下数据写入需开发人员手动指定写入节点以及数据存储目录以保证集群数据平衡。同时集群扩容后很难做到数据自平衡,对运维人员提出较高要求,另一方面由于该数据库不支持事务特性,在数据更新时容易出现数据重复,且不易解决此问题。
StarRocks:查询分析性能强悍,多表关联速度比其他产品快很多。与Clickhouse类似,StarRocks目前不支持字段级别的数据更新,同时查询性能与表的设计和集群性能密切相关。原则上集群性能随数据节点线性增长。另外,简便的运维管理也是StarRocks的一大亮点。目前StarRocks开发版本迭代快,需要及时跟进官方的版本进展。
Kudu:支持快速数据更新、快速数据分析与即席查询,但是数据量不宜过大,单表数据量不宜超过15亿。
性能方面,批量写入性能Clickhouse略优于其他系统,相同资源条件下明细查询性能ClickHouse和StarRocks比Impala Kudu更快,StarRocks有比较方便的物化视图(Rollup)可以满足统计查询的需求,另外StarRocks在关联查询方面性能有比较明显的优势。
综上所述,实时数仓方案,采用Kudu StarRocks相结合,实现现有PGW实时会话业务。StarRocks作为主要技术组件,Kudu辅助实现字段级别更新业务场景。