微软今天宣布了对话式人工智能的突破,它使用NVIDIA DGX-2系统,基于170亿个参数,训练了最大的基于转换器的语言生成模型。
 
该模型名为Turing-NLG,是目前可用的最大的变压器模型,可以在一系列自然语言处理任务上实现最新的结果。
 
为此,该团队在NVIDIA DGX-2系统上训练了他们的模型,该系统由多个与InfiniBand互连的NVIDIA V100 Tensor Core GPU组成。
 
该模型旨在通过提问,对话代理和文档理解来协助自然语言处理(NLP)系统。
 
“更好的自然语言生成可以在多种应用程序中实现变革,例如协助作者撰写内容,通过汇总一长段文本来节省时间或改善数字助理的客户体验。
 
微软研究人员在博客Turing-NLG中指出:“ T-NLG之类的生成模型对于NLP任务很重要,因为我们的目标是在任何情况下都尽可能做到人类能够直接,准确且流畅地做出响应。” Microsoft的参数语言模型。
 
“以前,问题解答和摘要系统依赖于从文档中提取现有内容,这些内容可以作为备用答案或摘要,但它们通常看起来不自然或不连贯。借助T-NLG,我们可以自然地总结或回答有关个人文档或电子邮件主题的问题。”
 
同样在今天,Microsoft开源了DeepSpeed,它是一个深度学习库,可以帮助开发人员进行延迟和推理。
 
该库与cuDNN加速的PyTorch深度学习框架兼容,有助于提高规模,速度,成本和可用性,从而使开发人员可以训练具有多达1000亿个参数的模型。
 
在速度方面,使用具有高带宽互连的NVIDIA GPU,可以训练3-5倍地训练20至800亿个参数之间的模型。
 
“在具有低带宽互连的NVIDIA GPU群集上(没有NVIDIA NVLink或Infiniband),与仅将Megatron-LM用于具有15亿个参数的标准GPT-2模型相比,我们将吞吐量提高了3.75倍,”博客,ZeRO和DeepSpeed:新的系统优化功能可提供具有超过1000亿个参数的训练模型。 “在具有高带宽互连的NVIDIA DGX-2群集上,对于20至800亿个参数的模型,我们的速度要快三到五倍。”