数据湖3.0:大数据与AI一体化
时间:2022-04-21 08:39:01 | 来源:行业动态
时间:2022-04-21 08:39:01 来源:行业动态
这几年,随着数据价值被越来越多企业认可,数据湖的建设备受关注。数据湖中的数据主要来自于传统关系型数据库中的结构化数据,大数据、AI平台的半结构化和非结构化数据。随着大数据和AI应用的普及,后两类数据占比越来越大,而且大数据和AI开始逐渐融合。然而,大数据主要是HDFS生态,而AI应用主要对象存储生态,这两者有不同的语义,统一起来并不容易。
陈起鲲介绍,早期的数据湖虽然采用了存算分离,但AI应用和大数据应用的数据是分开的,阿里云称其为数据湖1.0。后来在技术的进步和用户需求的双重推动下,这两者开始融合,进入数据湖2.0阶段。此时数据都存储到对象存储里,但是大数据应用的元数据仍然保存在HDFS中。
阿里云发布的对象存储OSS属于数据湖3.0技术,其在2.0基础上又向前走了一步,彻底打通了AI和大数据应用,实现了百分百兼容HDFS语义以及全服务化,数据和元数据统一保存到对象存储中,实现了高性能AI计算与大数据分析的融合。这样,同一套数据既可以进行大数据建模,同样也可以用于AI训练,大大提高了效率,也节约了成本。
另外,阿里云的OSS在数据安全合规和个人隐私保护方面还做了不少工作,而且这些产品能力是原生与对象存储是融合的。
据悉,为了充分满足客户需求,阿里云在此前已有的标准型OSS、低频型OSS和归档型OSS的基础上,此次新增了冷归档型OSS,用户可以根据文件创造的时间和更新的热度来配置对数据进行全生命周期管理,支持所有存储类型沉降至冷归档,降本最高达 90%。
截至目前,阿里云上已经有6000多个数据湖,它们借助阿里云OSS的一份数据、多份数据引擎、多个计算能力构建起了自己的数据分析能力。