这不是一次简单的版本升级,而是一次全面重构
时间:2022-04-12 20:06:01 | 来源:行业动态
时间:2022-04-12 20:06:01 来源:行业动态
,也是我们过去三年在向量数据库领域探索之后的集大成之作。在经过对架构进行全面重新设计,及 9 个 RC 版本的迭代后,我们正式宣布 Milvus 2.0 的 GA。 Milvus 的用户将由此能够获得生产级可用的开源向量数据库系统,它可以部署在任意云基础设施上,使用更加便利,性能更加强大,整体成本也更为优化。Milvus 工程总监栾小凡如此描述此次 GA 对 Milvus 项目的意义。
我们在迭代了 19 个版本后发布了 Milvus 的 1.0 版本,并获得了全球近 1000 家用户的实践验证。但我们依然看到了它的很多局限性,比如实时性与效率的冲突,成本的高昂,可扩展性和弹性的不足。于是我们开始了 2.0 版本的重构。 栾小凡提及的这些局限,充分说明目前 AI 系统开发者在面对生产落地时,在算法和模型之外,也同样面临更为切实的权衡:
- 非结构化数据相比传统结构化数据,已经占据压倒性地位;
- 数据新鲜度非常重要,数据科学家们更希望能够拥有实时处理能力,而非忍受对 T 1 的妥协;
- 面对生产实践环境,数据处理的成本和性能更加重要,但现有的方案却仍然与需求存在距离;
- 数据平台能够自如的部署在各种云基础设施之上,全面云原生化势在必行。
的确,随着 AI 应用的大规模快速普及,一套 AI 系统需要应对的业务数据量呈几何级数增长。这其中以图形、视频、音频为代表的非结构化数据为主。目前业务处理这类非结构化数据的主流的做法是将数据通过算法先转化成向量(embedding vector),之后通过向量数据库平台进行向量近似性搜索,以实现对这些数据的搜索查询等需求。在最近的人工智能顶会 NeurIPS 上,Google、Facebook 及 Microsoft 的 AI 团队向业界公开了数个全新的