什么是数据目录?
时间:2022-03-08 04:09:01 | 来源:行业动态
时间:2022-03-08 04:09:01 来源:行业动态
图1
很多人还不清楚什么是数据目录,我来打个比方,我们用书来比喻数据。大家都知道图书馆的图书目录,我们过去进到图书馆借书,首先就要去查找图书目录。如果一个图书馆如图1右下角那副照片那么乱的话,相信就连图书管理员也无法找到想要的书吧?如果一个企业的数据库管理得那么乱,那么就连数据库管理员可能也无法找到数据了。如果一个图书馆如图1右上角那样的话,那说明这个图书馆的书,已经分门别类摆放整齐了,就像一个企业的数据,结构化的和非结构化的,都分别在数据库里或大数据平台上,放得整整齐齐了。但是,对于图书馆来说,其主要任务是为读者服务的,书摆放得整齐,需要借书的读者就能借到他要的书吗?我们都知道,那是不够的,因为缺少一个图书目录,就是图1左边的小抽屉。那个小抽屉里放的是一张一张的书卡,书卡上写了一些什么呢?往往有书的名字、书的简介、书的作者、书的出版年份,还有书的类别,比如是物理类的还是化学类的;书的属性,比如是工具书类的还是文艺书类的;书适合的年级,比如一年级还是三年级;最重要的是书的具体位置,它是在图书馆的哪一排的哪一层的哪一格里。有了这张书卡,我们就可以轻松地找到这本书并借到这本书了。我曾经和一个大型企业的CIO聊天,这家企业20年前就建了数据仓库,十年前又建了大数据平台和数据湖,类似数据治理的项目都建设过好几期了。我问CIO最近企业在IT方面开展什么项目呢?CIO回答,最近招进了好几个数据科学家,打算开展AI项目的建设,但是遇到了困难。数据科学家们在工作中,要花70%以上的时间在寻找数据,而不是AI 建模。CIO问,为什么我们过去的数据治理项目,帮不了这些数据科学家呢?我就告诉这个CIO, 你们过去的数据治理项目,都是面向IT用户的,不是面向业务人员的。如果你真的要帮助数据科学家方便快捷地找到他们要的数据,你就要建设真正的数据目录。