10万亿达摩院发布全球最大AI预训练模

北京权威白癜风医院 https://mjbk.familydoctor.com.cn/bjbdfyy_ks811/

来源:大数据文摘

11月8日,阿里巴巴达摩院公布多模态大模型M6最新进展,其参数已从万亿跃迁至10万亿,规模远超谷歌、微软此前发布的万亿级模型,成为全球最大的AI预训练模型。同时,M6做到了业内极致的低碳高效,使用GPU在10天内即训练出具有可用水平的10万亿模型。相比去年发布的大模型GPT-3,M6实现同等参数规模,能耗仅为其1%。

与传统AI相比,大模型拥有成百上千倍“神经元”数量,且预先学习过海量知识,表现出像人类一样“举一反三”的学习能力。因此,大模型被普遍认为是未来的“基础模型”,将成下一代AI基础设施。然而,其算力成本相当高昂,训练亿参数语言大模型GPT-3所需能耗,相当于汽车行驶地月往返距离。

今年5月,通过专家并行策略及优化技术,达摩院M6团队将万亿模型能耗降低超八成、效率提升近11倍。10月,M6再次突破业界极限,通过更细粒度的CPUoffload、共享-解除算法等创新技术,让收敛效率进一步提升7倍,这使得模型规模扩大10倍的情况下,能耗未显著增加。这一系列突破极大降低了大模型研究门槛,让一台机器训练出一个千亿模型成为可能。

同时,达摩院联合阿里云推出了M6服务化平台,为大模型训练及应用提供完备工具,首次让大模型实现“开箱即用”,算法人员及普通用户均可方便地使用平台。达摩院还推出了当前最大规模的中文多模态评测数据集MUGE,覆盖图文描述、文本生成图像、跨模态检索任务,填补了缺少中文多模态权威评测基准的空白。

挑战极限规模,落地实际应用!十万亿M6及服务化平台发布

此前达摩院陆续发布了多个版本的M6模型,从大规模稠密模型到超大规模的混合专家模型的探索,逐步从百亿参数升级到万亿参数规模,在致力于推动超大规模预训练及GreenAI的同时,也在发力超大规模预训练模型的落地应用和服务化,为现实场景中各式各样丰富的下游任务提供强大的表示学习底座。在近期,M6团队在多个方向上持续积累,做出了如下成果:

超低碳训练和推理:达摩院联合阿里云PAI、阿里云EFLOPS大计算集群团队和蚂蚁EFLOPs工程团队,仅用EFLOPS集群的张V-32G,训练仅用时10天,打造目前业界最大的预训练模型10万亿参数模型M6-10T,效果超出此前万亿参数模型M6-T,之前业界最好水平是微软最新发布的DeepSpeed,其使用了张A才完成3.5万亿参数基于MoE的GPT;从千亿、万亿到十万亿参数,单机承载的参数量从64亿,亿增长至亿,相比去年,M6自身规模扩大了0倍,但训练能耗仅为此前3%,大力推动了低碳大模型和GreenAI发展。

M6能力升级:此前M6图像生成分辨率达到业界最高的*,在此基础上进一步提升了生成质量,以及在少样本情况下的生成拓展性和创造力,且范围扩展到企业Logo生成,NFT图片生成等;文案生成继达到工业级后陆续收到业务反馈,帮助多个业务实现5%及以上的业务效果提升;打造金融大脑,预训练融入金融知识,覆盖10个以上理解和生成任务。

正式推出M6服务化平台:日常服务阿里巴巴超过40个业务团队,日调用量上亿,提供上手简便的基于M6的finetune和inference方案,覆盖多项理解和生成任务,包括Seq2Seq文本生成、自回归文本续写、图片描述、文本分类、多模态分类、文本匹配、图文检索、多模态对比学习、文本流畅度评估等,是目前业界覆盖最广泛的大模型生态的服务化平台,并同时打造算法社区,推动普惠AI发展。

一、背景介绍

进入年,大规模预训练模型成为学术界和工业界都非常


转载请注明:http://www.180woai.com/qfhqj/6891.html


冀ICP备2021022604号-10

当前时间: