RAPIDS加速数据价值实现
时间:2022-04-01 15:18:01 | 来源:行业动态
时间:2022-04-01 15:18:01 来源:行业动态
赵立威表示,大数据分析一般经过三个步骤,一个是数据准备,这个过程数据特征的提取、数据合并、数据降维等等;第二步,训练。这是一个不断的循环过程,我们要不断优化,进行参数的调整,训练过程精度会更高,可预测的结果会更准确;第三步,推理,上线运营。
在这三个步骤中,业界产生了很多相应的工具,可以加速相应的过程实现。但是这些工具大多是依托处理器的计算,并没有有效利用加速器。于是,NVIDIA通过与开源社区合作,实现了GPU加速数据分析。GPU可以给数据科学家的机器学习项目提供更多的加速支持。赵立威说。
最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2系统上进行训练,结果表明,与仅有CPU的系统相比,其速度能加快50倍。这可帮助数据科学家将典型训练时间从数天减少到数小时,或者从数小时减少到数分钟,具体取决于其数据集的规模。
赵立威总结说,在方兴未艾的数据科学领域,RAPIDS具有显着的特点:无缝整合,数据科学家只需要进行非常少的代码修改就可以带来显着的性能加速;可以直接运行在NVIDIA近几年的GPU产品上面;减少数据处理等待时间,数据科学家可以将精力用在模型训练和优化;开源,更好地融入社区,获得更多人的智慧,丰富基础特性,服务更多场景。
据悉,为了推动RAPIDS的广泛应用,NVIDIA正努力将RAPIDS与Apache Spark进行整合,数据可视化将是下一个目标。