计算机行业报告:国产数据库百花齐放,搜索引擎数据库风口已至
时间:2023-03-19 23:26:01 | 来源:电子商务
时间:2023-03-19 23:26:01 来源:电子商务
报告出品/作者:东方证券、浦俊懿、陈超、谢忱
以下为报告原文节选
------
一、数据库是信创基础软件重要部分1.1 数据库的定义、分类与发展数据库是信创基础软件的重要部分,是信息系统的核心。我国信息技术软硬件底层标准、架构、产品、以及生态体系被外国把控,这些上游核心技术遭遇美国“卡脖子”严重影响了我国关键科技和产业的发展。近年来,中央出台多项信创相关的支持政策、指导意见,大力支持信创产业持续发展,努力实现国产替代。数据库作为信息系统的核心,在计算机中承担着承上启下的重要作用,向下调用硬件基础资源,向上是各种应用软件的重要支撑引擎。随着我国数据经济的快速发展,数据量的快速提升,作为信创基础软件重要环节的国产数据库将迎来重大机遇。
通常意义上的数据库即指数据库系统(Database System,简称DBS),由数据库、数据库管理系统、应用程序、管理员四部分组成。数据库是指长期存储在计算机内,有组织的、可共享的大量数据集合,包括数字、文字、图像、音频、视频等数据形式。数据库管理系统(Database Management System,简称DBMS)是位于用户和操作系统之间的一层数据管理软件,负责对数据进行组织和存储管理,以及获取和维护数据。应用程序是为了提高数据库系统管理能力的软件补充,并可以使数据管理过程更加直观和友好,它负责连接、访问和管理DBMS中存储的数据,允许用户进行增删改减。管理员主要职责是运维和管理数据库管理系统。其中,DBMS是数据库系统的基础和核心。
数据库管理系统作为能够使用户定义、创建、维护和控制访问数据库的软件系统,其数据结构和技术架构不断发展,呈现关系型数据库和非关系型数据库并存、集中式与分布式并存的技术现状。1)按数据结构分为关系型和非关系型:关系型数据库又称为SQL数据库,它建立在关系模型基础上,取代了层次模型和网络模型,以行和列的形式存储数据,以便于用户理解。常见的Oracle、MySQL等数据库均为关系型数据库。非关系型数据库也称作NoSQL数据库,采用不同于关系数据“行列”组织的数据模型,数据结构类型复杂,是对传统关系型数据库的拓展与补充。
搜索引擎数据库就属于非关系型数据库。
2)按技术架构分为集中式与分布式:集中式数据库指将数据集中在一台机器上进行处理的数据库,分布式则可以通过多个中小机型联机来实现大型集中数据库类似的性能。随着数据量的增长以及高并发读写需求的提升,由于集中式数据库的横向扩展能力受根本性的架构限制,难以满足业务瞬时高峰性能。因此,采用了分布式计算等新技术的分布式数据库通过将大规模负载分散到多个节点上,满足了计算量大、数据量大、读取数据和运算数据更快的需求,相较于集中式数据库具有更好的可扩展性。
数据库的发展历经前关系型、关系型和后关系型三大阶段,现阶段的技术路线更加多元化。前关系型阶段数据库的数据模型主要基于网状模型和层次模型,该类产品在当时较好地解决了数据集中存储和共享的问题,但在数据抽象程度和独立性上存在明显不足。1970年IBM公司提出关系模型,开启了数据库的关系型阶段,DB2、Oracle、MySQL等现今仍在广泛应用的关系型数据库都是在该阶段诞生的,目前仍是数据库市场的主流。进入21世纪后不久,随着数据规模的爆炸式增长、数据结构的灵活多变、数据应用的不断深化,传统数据库逐渐无法满足更丰富的应用需求,出现了基于各种新兴技术的新型数据库,数据库产业迎来快速发展。
我国数据库在海外巨头垄断中艰难发展。在2000年以前,我国的数据库市场基本被海外产品Oracle、SQLServer和DB2垄断。21世纪头十年是我国第一批国产数据库的萌芽期,人大金仓、达梦数据、南大通用和神舟通用等国产数据库通过依托科研院校成立,在21世纪初期海外巨头的垄断下艰难生长。2009年后,随着互联网技术的发展和去“IOE”浪潮的兴起,拉开了数据库国产替代的序幕。2014年至今,国产数据库进入了百花齐放的时代,伴随着信创政策的推动,国产数据库迎来了发展曙光。
1.2搜索引擎数据库简介搜索引擎数据库是一类专门用于数据内容搜索的NoSQL数据库,是非结构化大数据处理分析领域中重要的基础支撑软件。在数据爆炸式增长的当下,非结构化数据已经成为了全球数据量的主要来源。非结构化数据的数据结构复杂,没有预定义的数据模型,不方便用传统的数据库二维逻辑来表现,但却蕴含着巨量的价值信息,如何高效地处理分析非结构化数据是数据库领域面临的机遇和挑战。在这样的时代背景下,搜索引擎数据库的概念逐渐发展起来。它可以提供快速的数据检索服务,是搜索引擎系统的底层支撑。而常见的谷歌、百度等是搜索引擎,它的概念更加宽泛,不仅涵盖搜索引擎数据库,还包含了爬虫、网页权重计算、检索词纠错、知识图谱和个性化推荐等模块。
搜索引擎数据库的应用广泛。搜索引擎数据库早期又称全文数据库、非结构化数据库等,因为搜索引擎数据库诞生的初期主要是解决关系型数据库中长文本检索效率低下的问题而诞生的,但是随着技术的发展,目前的搜索引擎数据库已经不仅仅可以处理长文本数据,也可以处理常见的数值、日期等结构化数据,还可以处理IP、地理位置信息、图片、音视频等非结构化数据。凭借在数据查询效率方面的优势,搜索引擎数据库在数据处理方面的地位越来越高,并在应用程序搜索、网站搜索、企业搜索、智能问答、图像与语音搜索、语义搜索、业务分析和安全分析等方面有着广泛的应用。
搜索引擎数据库伴随着搜索引擎的发展而发展。互联网上第一个真正意义的搜索引擎是由蒙特利尔大学学生Alan Emtage于1990年开发的Archie,开创了现代搜索引擎领域。虽然当时World Wide Web还未出现,但网络中文件传输已经相当频繁,而这一搜索引擎用于FTP服务器上的文件。1995年,全文检索引擎AltaVista推出,迅速成为当时最受欢迎的搜索引擎;同年,中国公司易宝北信推出了全文检索数据库TRSDatabaseServer,随后获得了国家科技进步二等奖。1997年Google、2001年百度搜索引擎相继问世,DougCutting开发的开源全文索引引擎Lucene加入了Apache基金会,为后续多个搜索引擎数据库的诞生提供了基础,Solr、Elasticsearch等常用的搜索引擎数据库都是基于Lucene开发的。Elastic公司于2011年成立,之后迅速成为全球领先的搜索引擎数据库厂商,并于2018年上市。国内厂商星环科技于2020年发布了新一代搜索引擎New Search,并在2021年更名为Scope。
搜索引擎数据库关注度正在提升。2022年11月17日,中国信通院组织召开了“搜索型数据库”技术研讨会,会议重点讨论了搜索型数据库的市场前景、技术趋势、应用场景、发展态势等议题,专家们认为我国在搜索型数据库领域存在取得全球领先地位的可能性,同时搜索型数据库的数据安全问题日益受到业界的关注。在信创产业发展的大背景下,我国关系型数据库的发展如火如荼,已有多款关系型数据库产品入选了国家信创产品目录,一些产品性能已经达到国际领先水平,但是搜索引擎数据库领域的发展仍较为滞后。随着信创政策不断推进,搜索引擎数据库作为高效处理非结构化数据的基础软件,关注度正在逐步提升。
二、搜索引擎数据库进入发展期,有望迎来快速增长2.1数据库市场方兴未艾,关系型数据库仍为主流关系型数据库占据数据库市场绝对主流,搜索引擎数据库份额较低。从全球范围来看,关系型数据库仍是目前的主流市场。根据DB-Engines统计,关系型数据库流行度占比高达71.3%,非关系型数据库仅为28.7%,其中搜索引擎数据库占4.6%。所有数据库综合排名TOP10中有7家为关系型数据库。从中国范围来看,目前我国数据库产品数量分布呈现以关系型为主,非关系型数据库为辅的局面。根据墨天轮统计,截至2022年11月,我国数据库产品中有关系型数据库159个,非关系型数据库87个,其中流行度排名前十的全部是关系型数据库。国产搜索引擎数据库产品仅有两款。
数据库管理系统市场持续加快增长。据Gartner报告显示,2021年全球数据库管理系统市场收入接近800亿美元,相比2020年增加了145亿美元,同比增速达到22.3%,2020年这个数字是19%,市场规模正在加速增长。据统计,数据库管理系统市场已连续六年实现增长,自2017年以来,市场规模已经翻了一倍,四年的年复合增长率达到19.7%。
非关系型数据库市场规模增速显著高于整体市场,收入占比逐年提升,互联网厂商占据较大市场份额。据Gartner统计,2021年全球非关系型数据库管理系统的收入达到148亿美元,约占全球数据库管理系统总收入的19%,在2017年时该占比仅为8%,五年内占比也翻了一倍。其中纯非关系型数据库管理系统厂商(Aerospike,Couchbase,Neo4j,MongoDB等8家)的收入达到23亿美元,大部分收入仍来自于互联网厂商的非关系型数据库产品,其中亚马逊的非关系型数据库收入达到64亿美元,占据非关系型数据库总收入的43.2%,谷歌的非关系型数据库收入达到28亿美元,占非关系型数据库总收入的18.6%。
中国数据库市场规模增速较快,国产化率有望提升。据中国信通院发布的《数据库发展研究报告2021》统计,2025年中国的数据库市场规模将达到688亿元,5年年复合增长率达23.4%。目前,海外巨头仍占据国内数据库市场较大份额,但国产数据库经历多年沉淀,已经具备初步竞争力。据《中国信创产业发展报告2021》统计,2020年数据库国产化率已达47.4%。根据IDC统计,目前华为、达梦、人大金仓、阿里云等国产数据库软件已经在市场中占有一定份额,未来随着国产数据库技术不断提升,数据库国产化率有望进一步扩张。从行业来看,2021年在国内数据库市场份额中占比最高的是金融行业,达到了20.2%,其办公系统和一般系统使用我国数据库产品的机构数量已经超过40%。
2.2数据库厂商竞争日趋激烈从全球范围来看,头部数据库厂商屹立不倒,中下游厂商竞争激烈。根据Gartner发布的2011-2021年数据库管理系统市场份额统计显示,Oracle、微软、AWS、IBM、SAP等头部传统数据库厂商的市场排名基本稳定。近年来随着互联网的不断发展和云技术的兴起,华为、阿里、谷歌、腾讯等互联网大厂也加入了数据库市场的竞争中,依靠自身的资源优势迅速进入了排名前列。随着数字经济快速发展以及数据量的爆发式增长,新兴数据库厂商不断涌现,中下游厂商之间的竞争也愈发激烈,市场排名变动较为明显。
-----------报告摘录结束 更多内容请阅读报告原文-----------
报告合集专题一览 X 由【虎鲸报告】定期整理更新互联网 / 媒体 / 游戏 / 教育 / 培训 / 新媒体 | 自媒体 | 短视频 | 云视频 | 在线视频 | 电影行业 | 院线 | 票房 | 传媒 | 新闻出版 | 融媒体 | 社交媒体 | 游戏 | 手机游戏 | 虚拟现实 | VR | AR | 剧本杀 | 棋牌游戏 | 休闲游戏 | 网络游戏 | 海外游戏 | 云游戏 | 在线教育 | 少儿教育 | 互联网教育 | 英语教育 | 游学研学 | STEAM教育 | K12教育 | 学前教育 | 职业教育 | 国际留学 | 素质教育 | AI教育 |
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)精选报告来源:虎鲸报告
关键词:数据,索引,风口,报告,行业,国产,计算机