Apache Spark 3.0推动大数据加速
时间:2022-03-08 01:03:01 | 来源:行业动态
时间:2022-03-08 01:03:01 来源:行业动态
黄仁勋随后又谈到了GPU加速,特别是如何在英伟达一直擅长的高性能计算(HPC)与科学计算等领域处理规模更大的数据集。英伟达的软件库目前已经支持超过700种CUDA加速应用,而Spark 3.0加速项目的推出更标志着一座新的里程碑。
不少数据科学家都在日常工作中使用Apache Spark。Adobe公司是最早在Databricks上运行Spark 3.0预览版的企业之一,他们表示在初步测试当中,数据处理性能提高了7倍,成本节约达90%。
黄仁勋还提到他的经典语录:买得越多,省得越多。由于时间仓促,我还没有对新项目进行全面的成本分析;但结合以往的经验,黄老的结论应该比较靠谱。
黄仁勋在演讲结语中表示,Databricks与Google Cloud Dataproc将很快推出配合GPU加速机制的Spark服务。考虑到ETL(提取、转换、加载)流程中庞大的市场空间,我觉得这项说明值得关注。再结合Google Cloud AI及AWS Sagemaker双双宣布支持英伟达RAPIDS,这也许意味着英伟达方案将开始向数据工程的上游移动。