如何搭建一个好的数据平台
时间:2023-08-22 06:36:01 | 来源:网站运营
时间:2023-08-22 06:36:01 来源:网站运营
如何搭建一个好的数据平台:如何搭建一个好的数据平台,网上有很多的分析。比如上云啦,SaaS啦,数据中台啦,各种概念层出不穷。
在我看来,这些都没有说到本质。从本质上说,这里的关键在于如何定义“好”。
对谁好?怎么才算好?弄清楚了这两个问题,如何搭建一个好的数据平台也就清楚了。
首先说,对谁好?当然是对用户好。谁是用户?当然是使用数据平台的人。怎么使用数据平台,可能是查看数据报表,可能是做自助式分析,可能是下载基础数据,如何保证在这些应用场景中让用户觉得好就是思考的方向。
其次再说怎么才算好?对于一个数据平台来说,我觉得主要应该包含如下这些:
- 数据准确
- 性能好
- 用户界面友好
- 数据安全性强
- 开发/变更简单
- 便于维护
- 便于共享
- 开放性
- 成本低
其中,1,2,3是业务用户更为看重的因素,而4,5,6,7,8,9则对IT部门来说更为重要。
下面展开说明一下。
- 数据准确。这个不用介绍相信大家也都认同。这里的数据准确包含两个层面的意思,一个是数据平台是数据的搬运工,那么就要保证数据平台和数据源的数据要保持一致。这就要求一旦数据源有增删改等动作,数据系统都能准确捕捉到,并同步到数据平台。另外一个是,除了是数据的搬运工,数据平台也会加工数据。比如,基于基础数据进行二次计算,由利润和销售额计算利润了就是这种情况。数据平台要保证计算的准确。对于利润率这种简单的情况当然不容易出错,但是一旦二次计算的逻辑变得复杂,则没有那么容易。举个简单例子,如何算不同商品的平均利润率?是不同商品的利润率取平均吗?当然没有这么简单,应该是把不同商品的利润总计除以销售额总计。
- 性能好。这个也好理解。用户在打开数据平台时,总是希望结果瞬间呈现在他的面前。用户才不管后台的数据量是不是有几千万条,也不管数据是不是横跨了半个地球而来,也不管自己使用的电脑是不是台老古董,总之,鼠标一点,数据跑出来就是不行!其实,可以看到,决定性能好坏的因素太多了,如何优化性能大有学问,有机会再慢慢展开吧。
- 用户界面友好。这个也容易理解。用户界面代表了数据平台和用户的交互性。交互性好的数据平台,用户不需要掌握复SQL就能很方便的查询基础数据,不需要掌握特别的开发语言就能建模和开发简单的报表用于自助分析,不需要看说明书就能很方便的知道如何使用报表查询等。
- 数据安全性强。这个指的是数据平台要有能力保证对的用户查看对的数据。相应的,不对的人不能查看相应的数据。这一点,在数据已经被提升到企业资产的战略层面这个角度来看,是尤其重要的。
- 开发/变更简单。如果一个数据平台满足了上面4点,应该就算是个不错的产品了。但是,如果建模或者开发报表特别不容易,那好评度也会大打折扣。举例来说,之前用过一款报表工具,制作常见的饼图都需要特别的技巧很费力的开发出来,而有些工具通过鼠标操作可能三两下就能做出来,那么当然孰优孰劣当然高下立判。
- 便于维护。有好的开发商盖楼,也得需要好的物业配套管理。数据平台也是一样,数据开发是一回事,运维是另一回事。硬件层面是不是很容易增加资源,软件层面升级是不是简单易操作,开发的数据模型和报表是不是易于维护,都是需要考虑的内容。
- 便于共享。数据分析的结果出来了,想和同事分享怎么办?总不能截图发邮件吧……所以,应该有一种机制,很方便的分享给其他人,其他人也能够很方便的访问,不管是电脑,平板还是手机。
- 开放性。这里的开放性有两个方面,一个是可支持接入的数据源的丰富性。现在大数据背景下,数据的种类非常丰富:结构化的,非结构化的,本地的,云上的,不同数据库的,不同文件格式的,数据平台最好做到兼容并蓄,来者不拒。另一个是展示端,不是封闭的,而是做成开放式的。例如,可视化报表的种类非常多,对于一些优秀的作品,如果数据平台能够很方便的接入,并为其他人所用,则会加分不少。
- 成本低。这个最容易理解,一个是软件本身的使用费用,一个是开发运维的费用,越低越好。