摩根大通如何利用 AWS 云实现数据网格
时间:2022-03-05 05:08:01 | 来源:行业动态
时间:2022-03-05 05:08:01 来源:行业动态
现在,让我们来看一看 AWS 上的具体实现并深入了解一些工具。
正如 Arup Nanda 详细描述的那样,上图显示了摩根大通团队使用的参考架构。其中显示了支持其数据网格的所有各种AWS服务和组件。
从 Kinesis 正下方的 Authorization 块开始。Lake Formation 是数据产品所有者的单点权利,并且有许多与之相关的存储桶包括我们刚刚谈到的原始区域、可信存储桶、精炼存储桶和针对任何需要的操作调整的存储桶。
在这些存储桶下方,你可以看到数据目录注册(Data Catalog Registration)块。这是 Glue Catalog 所在的位置,它会检查数据特征以确定路由器将数据放在哪个桶中。例如,如果没有架构(schema),则数据会根据策略进入原始存储桶等。
在这里,你可以看到很多被使用到的AWS服务、身份、多年沉积下来的Hadoop 工作中的 EMR 集群,Redshift Spectrum 和 Athena。摩根大通将 Athena 用于单线程工作负载,将 Redshift Spectrum 用于可以相互独立查询的嵌套类型。
现在,请记住,非常重要的一点是,在这个用例中,没有一个单一的湖形成,而是多个业务线被授权创建自己的湖,这就带来了挑战。换句话说,如何才能够以灵活的方式完成这一切以满足业务负责人们的要求?
请注意:这是一篇以 AWS 为中心的博客,介绍了他们推荐如何实施数据网格。
进入数据网格
摩根大通采用了联合湖的概念形成账户,并支持该公司的多条业务线。每条业务线都可以按照自身的需要创建任意数量的数据生产者和消费者账户,然后将它们汇总到每个块中心显示的主要业务线湖形成帐户。如下图所示,在这个联合模型中,所有的数据产品都交叉连接在一起。
如上图中间部分所示,这些都汇总到主Glue目录中,这样,任何授权用户都可以找到特定数据元素的位置。这个超集目录包含多个源,并在整个数据网格中同步。
这让我们再一次觉得这是一个经过深思熟虑的数据网格的实际应用。是的,它包含了一些集中管理的概念,但是大部分的责任已经被划分给了业务线。它确实汇总到一个单一的主目录,但这是一项元数据管理工作,并且似乎是确保联合式、自动化治理的必要条件。
重要的是,在摩根大通,首席数据官办公室负责确保整个联合的治理和合规性。