从1到2的跨越式突破
时间:2022-04-02 04:00:01 | 来源:行业动态
时间:2022-04-02 04:00:01 来源:行业动态
具体来说,悟道团队由智源研究院学术副院长唐杰教授领衔,100多位来自清华、北大、人大、中科院等的科研骨干共同参与,短短一年多的时间,实现了从0到1,又从1到2的层层突破。唐杰表示,悟道的目标是对标世界领先水平,旨在打造数据和知识双轮驱动的认知智能,能够让机器像人一样思考。虽然,现在只是2.0版本,但悟道已经是一个非常全能的选手,在问答、绘画、作诗、视频、配文案、菜谱等很多任务中都正在逼近图灵测试的机器认知能力。而它的目标,是超越这一基准。智源研究院学术副院长 唐杰教授
相较于1.0版本,此次发布的悟道2.0进一步做到了大而聪明,具备大规模、高精度、高效率三大支点唐杰将这描述为你是(实)最大。
首先,大指的是模型参数规模之大。据唐杰介绍,悟道2.0的参数规模达到了1.75万亿,是OpenAI在去年5月发布的超大规模语言模型GPT-3的10倍,打破了之前由Google Switch Transformer预训练模型创造的1.6万亿参数记录,也是目前中国首个、全球最大的万亿级模型,首次在100%的国产超算上训练了万亿模型;
其二,最指的是精准度之最。悟道2.0在世界公认的9项Benchmark基准测试任务上取得优异成绩,在图形处理、文本任务等方面都达到了精准智能。比如,ImageNet zero-shot SOTA在200类超过了OpenAI CLIP,LAMA知识探测超过了AutoPrompt, LAMBADA完形填空能力超过1.7倍参数微软Turing NLG;
其三,实指的是框架的实用性。过去,大规模预训练模型的参数规模通常远超传统的专用人工智能模型,在算力资源、训练时间等方面消耗巨大。而为了提升大规模预训练模型的产业普适性和易用性,悟道团队搭建高效预训练框架,在高效编码、高效模型、高效训练、高效微调和高效推理等方面进行全链路的原创突破或迭代优化,实现效率的大幅提升;
最后,你指的是邀你参与。唐杰表示,目前悟道框架中已经整合了大量数据,建设了全球最大的语料数据库WuDaoCorpora2.0,包含全球最大的中文文本数据集、全球最大的多模态数据集、全球最大的对话数据集,为行业内大规模智能模型的研发提供了丰富的数据支撑,并提出了自然语言评测新标准智源指数。在此之上,悟道团队希望更多的人参与进来,贡献数据、分享数据,做更大的数据集,通过更大的算力,做出更优美的模型。