更大并不一定更好
时间:2022-03-05 08:46:01 | 来源:行业动态
时间:2022-03-05 08:46:01 来源:行业动态
在当今以深度学习为中心的研究范式当中,人工智能的主要进步主要依赖于模型的规模化扩展:数据集更大、模型更大、计算资源更大。
GPT-3就很好地说明了这种现象。这套模型中包含多达1750亿个参数。为了帮助大家更直观地理解这个数字,其前身GPT-2模型(在去年发布时,同样创下了体量层面的纪录)只有15亿个参数。去年的GPT-2在拥有千万亿次算力的设备上训练了几十天;相比之下,GPT-3的训练时长将增长至数千天。
这种靠每况愈大模型推动AI技术进步的问题在于,这类模型的构建与部署都需要消耗大量能源,并由此产生巨量碳排放。
在2019年的一项广泛研究当中,由Emma Strubell牵头的一组研究人员估计,训练一套深度学习模型可能产生高达62万6155磅的二氧化碳排放量大约相当于五辆汽车从出厂到报废的总二氧化碳排放规模。如果这还不够直观,那么每个美国人每年平均产生3万6156磅二氧化碳排放量。
可以肯定的是,这项估算主要针对那些高度依赖于能源的模型。毕竟结合当前现实,机器学习模型的平均训练过程绝不至于产生60多万磅二氧化碳。
同样值得注意的是,在进行这项分析时,GPT-2仍然是研究领域规模最大的模型,研究人员也将其视为深度学习模型的极限。但仅仅一年之后,GPT-2就成了纤细瘦小的代名词,下代模型的体量超过其百倍。