持久内存加持 参数服务器性能升级
时间:2022-03-19 12:51:01 | 来源:行业动态
时间:2022-03-19 12:51:01 来源:行业动态
参数服务器通常将所有数据放在纯内存中处理,AI模型越大,分布式参数服务器的内存需求越大。此外,纯内存虽然性能优秀,但因其易失性(volatile)特性,一旦硬件或者软件发生故障,内存丢失的全部数据必须从持久性存储设备(HDD/SSD)中读取日志恢复,恢复速度慢,严重影响线上性能服务质量。
持久内存的大容量、高性能、非易失性属性,为其带来了高安全性、低成本等优势,改善了目前纯内存容量小、成本高、灾备恢复慢等问题。针对持久内存这些应用优点,第四范式针对HyperPS参数服务器的底层系统架构和存取性能等进行了软硬一体设计。首先,针对节点内的shard重新设计了新的存储引擎,采用持久化哈希表为底层数据结构储存特征,保证高并行度性能的同时,对持久内存数据组织格式进行优化,达到接近于纯内存哈希表的性能;其次,对参数服务器灾难恢复机制调优,使用持久化智能指针记录哈希表的核心数据结构和根指针,实现业界首创的参数服务器实时恢复能力;再次,利用PMDK的transaction机制,使用pmempool分配和管理持久内存空间,确保持久内存数据一致性;最后,针对影响性能的持久化操作进行策略性的降低,进一步提高性能。
在实际测试环境中,基于持久内存的HyperPS表现出更低的拥有成本和巨大的实时恢复优势,以及与纯内存近乎一致的性能表现。