中国数据库系统:OceanBase
时间:2023-03-13 07:04:02 | 来源:电子商务
时间:2023-03-13 07:04:02 来源:电子商务
高性能分布式数据库系统
OceanBase是由蚂蚁集团完全自主研发的金融级分布式关系数据库,始创于2010年。OceanBase具有数据强一致、高可用、高性能、在线扩展、高度兼容SQL标准和主流关系数据库、低成本等特点。
2020年5月,蚂蚁集团自主研发的分布式关系数据库OceanBase,以7.07亿(707,351,007)tpmC的在线事务处理性能,打破了OceanBase自己在2019年10月创造的6088万(60,880,800)tpmC的TPC-C世界纪录。
OceanBase已经在中国建设银行、南京银行、西安银行、人保健康险、常熟农商行、苏州银行、广东农信、网商银行等多家商业银行和保险机构上线。
2020年6月8日,蚂蚁集团宣布,将自研数据库产品OceanBase独立进行公司化运作,成立由蚂蚁100%控股的数据库公司北京奥星贝斯科技有限公司,并由蚂蚁集团CEO胡晓明亲自担任董事长。
2020年9月,中国工商银行开始采用蚂蚁自研数据库OceanBase,其对公(法人)理财系统已完成从大型主机到OceanBase分布式架构的改造。
基本信息
中文名
奥星贝斯
外文名
OceanBase
类别
软件
类型
数据库品牌
特点
北京海量数据技术股份有限公司
部门构成
淘宝核心系统研发、运维、DBA、广告、应用研发等
研发重点
数据更新一致性、高性能的跨表读事务、范围查询等
特点
OceanBase功能
OceanBase设计和实现的时候暂时摒弃了不紧急的DBMS的功能,例如临时表,视图(view),研发团队把有限的资源集中到关键点上,当前OceanBase主要解决数据更新一致性、高性能的跨表读事务、范围查询、join、数据全量及增量dump、批量数据导入。
OceanBase数据访问特点
虽然数据总量比较大,但跟许多行业一样,淘宝业务一段时间(例如小时或天)内数据的增删改是有限的(通常一天不超过几千万次到几亿次),根据这个特点,OceanBase把一段时间内的增删改等修改操作以增量形式记录下来(称之为动态数据,通常保存在内存中),这样也使得了主体数据在一段时间内保持了相对稳定(称之为基准数据)。
由于动态数据相对较小,通常情况下,OceanBase把它保存在独立的服务器UpdateServer的内存中。以内存保存增删改记录极大地提高了系统写事务的性能。此外,假如每条修改平均消耗100 Bytes,那么10GB内存可以记录100M(即1亿)条修改,且扩充UpdateServer内存即增加了内存中容纳的修改量。不仅如此,由于冻结后的内存表不再修改,它也可以转换成sstable格式并保存到SSD固态盘或磁盘上。转储到SSD固态盘后所占内存即可释放,并仍然可以提供较高性能的读服务,这也缓解了极端情况下UpdateServer的内存需求。为了应对机器故障,动态数据服务器UpdateServer写commit log并采取双机(乃至多机)热备。由于UpdateServer的主备机是同步的,因此备机也可同时提供读服务。
因为基准数据相对稳定,OceanBase把它按照主键(primary key,也称为row key)分段(即tablet)后保存多个副本(一般是3个)到多台机器(ChunkServer)上,避免了单台机器故障导致的服务中断,多个副本也提升了系统服务能力。单个tablet的尺寸可以根据应用数据特点进行配置,相对配置过小的tablet会合并,过大的tablet则会分裂。
由于tablet按主键分块连续存放,因此OceanBase按主键的范围查询对应着连续的磁盘读,十分高效。
对于已经冻结/转储的动态数据,OceanBase的ChunkServer会在自己不是太繁忙的时候启动基准数据与冻结/转储内存表的合并,并生成新的基准数据。这种合并过程其实是一种范围查询,是一串连续的磁盘读和连续的磁盘写,也是很高效的。
传统DBMS提供了强大的事务性、良好的一致性和很短的查询修改响应时间,但数据规模受到严重制约,缺乏扩展性;现代云计算提供了极大的数据规模、良好的扩展性,但缺乏跨行跨表事务、数据一致性也较弱、查询修改响应时间通常也较长,OceanBase的设计和实现融合了二者的优势:
UpdateServer:类似于DBMS中的DB角色,提供跨行跨表事务和很短的查询修改的响应时间以及良好的一致性。
ChunkServer:类似于云计算中的工作机(如GFS的chunk server),具有数据多副本(通常是3)、中等规模数据粒度(tablet大小约256MB)、自动负载平衡、宕机恢复、机器plug and play等特点,系统容量及性能可随时扩展。
MergeServer:结合ChunkServer和UpdateServer,获得最新数据,实现数据一致性。
RootServer:类似于云计算中的主控机(如GFS master),进行机器故障检测、负载平衡计算、负载迁移调度等。
上述的DBMS和云计算技术的优势互补使得OceanBase既具有传统DBMS的跨行跨表事务、数据的强一致性以及很短的查询修改响应时间,还有云计算的海量数据管理能力、自动故障恢复、自动负载平衡以及良好的扩展性。
OceanBase当前在淘宝的应用
OceanBase现在已经应用于淘宝收藏夹,用于存储淘宝用户收藏条目和具体的商品、店铺信息,每天支持4~5千万的更新操作。等待上线的应用还包括CTU、SNS等,每天更新超过20亿,更新数据量超过2.5TB,并会逐步在淘宝内部推广,也期待外部合作者。
主要的性能数据
测试软硬件环境
Red Hat Enterprise Linux Server release 5.4 (Tikanga)
gcc version 4.1.2 20080704 (Red Hat 4.1.2-46)
Intel(R) Xeon(R) CPU E5520 @ 2.27GH
ChunkServer & MergeServer:Memory 16GB Disk 300GB SAS*10 NO Raid
UpdateServer & RootServer:Memory 48GB Disk 300GB SAS*6 Raid1
测试环境部署简图
▲
测试数据规模
21亿条数据,基准数据3备份。
测试Schema
两张表,其中表1中有21列,表2中11列。
其中表1中的11列和表2中的11列存在join关系。
单条记录大小为500字节。
测试性能曲线图
Range数据查询
▲
单条数据查询
▲
当压力最大时,ChunkServer单台输出数据90MB/S,已经接近了千兆网卡的极限
更新数据
应用
许多公司的核心资产是各种各样的商业数据,例如淘宝的商品、交易、订单、购物爱好等等,这些数据通常是结构化的,并且数据之间存在各种各样的关联,传统的关系数据库曾经是这些数据的最佳载体。然而,随着业务的快速发展,这些数据急剧膨胀,记录数从几千万条增加到数十亿条,数据量从百GB增加到数TB,未来还可能增加到数千亿条和数百TB,传统的关系型数据库已经无法承担如此海量的数据。OceanBase解决不断增加的结构化数据存储与查询的问题。
从Eric Brewer教授的CAP(一致性C: Consistency,可用性A: Availability,分区容错性P: Tolerance of network Partition)理论角度分析,作为电子商务企业,淘宝和其他公司的业务对一致性和可用性的要求高于分区容错性,数据特征是数据总量庞大且逐步增加,单位时间内的数据更新量并不大,但实时性要求很高。这就要求我们提供一套更加偏重于支持CA特性的系统,同时兼顾可分区性,并且在实时性、成本、性能等方面表现良好。
架构
OceanBase的逻辑架构简图
▲
OceanBase架构的一些基本概念
主键
row key,也称为primary key,类似于DBMS的主键,与DBMS不同的是,OceanBase的主键总是二进制字符串(binary string),但可以有某种结构。OceanBase以主键为顺序存放表格数据
sstable
一种数据存储格式,OceanBase用来存储一个或几个表的一段按主键连续的数据
tablet
一个表按主键划分的一个(前开后闭的)范围,通常包含一个或几个sstable,一个tablet的数据量通常在256MB左右
基准数据和动态数据
OceanBase以增量方式记录一段时间内的表格数据的增删改,从而保持着表格主体数据在一段时间内相对稳定,其中增删改的数据称为动态数据(通常在内存,也称为内存表),而一段时间内相对稳定的主体数据称为基准数据,基准数据和转储后(保存到SSD固态盘或磁盘)的动态数据以sstable格式存储
ChunkServer
保存基准数据的服务器,通常是多台,为了避免软件硬件故障导致的服务中断,同一份基准数据通常保存了3份并存储在不同ChunkServer上
UpdateServer
保存动态数据的服务器,一般是单台服务器。为了避免软件硬件故障导致的服务中断,UpdateServer记录commit log并通常使用双机热备
MergeServer
进行静态动态数据合并的服务器,常常与ChunkServer共用一台物理服务器。MergeServer使得用户能够访问到完整的最新的数据
RootServer
配置服务器,一般是单台服务器。为了避免软件硬件故障导致的服务中断,RootServer记录commit log并通常采用双机热备。由于RootServer负载一般都很轻,所以它常常与UpdateServer共用物理机器
冻结
指动态数据(也称为内存表)的更新到一定时间或者数据量达到一定规模后,OceanBase停止该块动态数据的修改,后续的更新写入新的动态数据块(即新的内存表),旧的动态数据块不再修改,这个过程称为冻结
转储
出于节省内存或者持久化等原因将一个冻结的动态数据块(内存表)持久化(转化为sstable并保存到SSD固态盘或磁盘上)的过程
数据合并(merge)
查询时,查询项的基准数据与其动态数据(即增删改操作)合并以得到该数据项的最新结果的过程。此外,把旧的基准数据与冻结的动态数据进行合并生成新的基准数据的过程也称为数据合并
联表(join)
一张表与另一张或几张表基于主键的左连接关系,类似于DBMS的自然连接
COW
Copy on Write的缩写,在OceanBase中特指BTree在更新时复制数据备份写入,避免系统锁的技术手段
产品信息
2020年6月8日,蚂蚁集团宣布将原有自研数据库产品OceanBase独立,成立由蚂蚁100%控股的数据库公司北京奥星贝斯科技,蚂蚁集团CEO胡晓明担任董事长。
2021年5月21日,国际事务处理性能委员会(TPC,Transaction ProcessingPerformance Council)官网发布最新的数据分析型基准测试(TPC-H)榜单,其中,蚂蚁集团自主研发的分布式关系数据库OceanBase以1526万QphH的性能总分排名30,000GB第一。
2021年6月1日,蚂蚁集团自研数据库OceanBase宣布正式开源,并成立OceanBase开源社区,社区官网同步上线。
品牌大事记
2010年:创始人阳振坤加入阿里巴巴,OceanBase 正式立项。
2011 年:OceanBase 0.1 版本发布,应用于淘宝收藏夹。
2014 年:OceanBase 0.5 版本发布,替代 Oracle 在支付宝交易系统上线,负担“双十一”10% 流量。
2015 年:网商银行成立,OceanBase 成为全球首个应用在金融核心业务系统的分布式关系数据库。
2016 年:OceanBase 1.0 版本在支付宝账务系统上线,支撑 12 万笔 / 秒支付峰值。
2017年:支付宝首次把账务库在内的所有核心数据链路搬到 OceanBase 上,创造 4200 万次 / 秒数据库处理峰值纪录。同年,OceanBase 1.x 版本首次在阿里巴巴/蚂蚁集团之外的商业银行:南京银行上线。
2018 年:OceanBase 2.0 版本正式发布,并在多家商业银行上线。
2019年:OceanBase通过TPC-C 测试并以6088万tpmC登顶TPC-C榜首。
2020年3月:3月,OceanBase正式通过阿里云向全球开放。
2020年5月:OceanBase再次通过TPC-C测试并创造了7.07亿tpmC的性能记录。 5月21日消息,21日,支付宝宣布其自研分布式数据库OceanBase在TPC-C基准测试中,性能分数突破亿级,达到7.07亿tpmC。
2020年6月:OceanBase独立公司化运作,成立由蚂蚁100%控股的数据库公司北京奥星贝斯科技。 2020年6月8日,蚂蚁集团宣布,将自研数据库产品OceanBase独立进行公司化运作。
2020年7月:7 月 31 日,浙江移动正式引入蚂蚁集团的自研数据库 OceanBase,首期应用于其政企网格智慧运营系统。
2020年9月:在刚刚结束的云栖大会上,OceanBase发布了2.2版本以及全新的OceanBase一体机。2.2版本的5大特性全新亮相,具有混合负载引擎和多种容灾方式,兼顾业务效率与数据安全。
2020年9月:恒生电子与OceanBase、阿里云展开联合测试,实现证券核心交易场景压测峰值十倍以上增长,交易委托TPS高达37.9万笔。
2020年9月:OceanBase推出初级认证OBCA,上线短短2个多月已有4000+人完成认证。近日,中级认证OBCP也已上线官网。9月26日,华东师范大学与OceanBase签署战略合作,共建“华东师范大学-北京奥星贝斯分布式数据库联合实验室”。
2020年9月:中国工商银行重要业务系统——对公(法人)理财系统完成从大型主机到分布式架构改造,顺畅运行在金融级分布式数据库OceanBase之上。
2020年10月:深圳公积金与OceanBase达成合作意向,将对业务在线办理系统进行分布式改造,推动公积金业务办理朝着线上化和智能化转型。
2020年11月:山东移动计费业务系统已经正式上线OceanBase。上线后山东移动计费系统处理效率方面明显提升,详单处理时长从7分钟缩短到5分钟,处理效率提升30%;数据由原有的7T压缩为0.7T,存储投入成本降低90%。
2020年12月:招商证券业务系统基于OceanBase完成架构升级,首次应用于其海量行情系统和历史收益系统,这是OceanBase在证券行业的又一重要突破。
2022年8月:国产自研分布式数据库OceanBase举办2022年度发布会,面向全球用户发布全新4.0产品—“小鱼“。
产品服务
OceanBase 数据库
OceanBase 数据库是蚂蚁集团不基于任何开源产品,自研的企业级分布式关系数据库。一款完全自研的原生分布式关系数据库软件,在普通硬件上实现金融级高可用,首创“三地五中心”城市级故障自动无损容灾新标准,具备卓越的水平扩展能力,全球首家通过TPC-C标准测试的分布式数据库,单集群规模超过1500节点。产品具有云原生、强一致性、高度兼容Oracle/MySQL等特性。
OceanBase 云平台
OceanBase 云平台(OCP)是一款以 OceanBase 为核心的企业级数据库管理平台,提供 OceanBase 集群、租户、数据库等相关组件的全生命周期管理,同时也可以对 OceanBase 相关的其他组件提供管理功能。
OceanBase 开发者中心
OceanBase 开发者中心(OceanBase Developer Center,ODC)是为 OceanBase 数据库量身打造的企业级数据库开发平台。ODC 支持连接 OceanBase 中 MySQL 和 Oracle 模式下的数据库,同时为数据库开发者提供了数据库日常开发操作、WebSQL、SQL 诊断、会话管理和数据导入导出等功能。
OceanBase迁移服务
OceanBase迁移服务(OceanBaseMigrationService,OMS)是OceanBase提供的一种支持同构或异构RDBMS与OceanBase之间进行数据交互的服务,它提供了数据的在线迁移和实时增量同步的数据复制能力。
OceanBase公有云
OceanBase公有云服务是由OceanBase提供的DBaas服务,在OceanBase原有的分布式基础之上,结合公有云的特征,提供给用户一个具备成本优势,安全,弹性,免运维,并提供跨云部署的数据库服务
OceanBase数据库一体机
OceanBase 数据库一体机是基于蚂蚁金融级分布式数据库和自研可信硬件打造的软硬一体化解决方案。
OceanBase数据库架构