微软Microsoft的研究人员创造了语言辨识的世界纪录,该公司推出的最新科技,采用GPU加速深度学习技术,辨识对话中的字句,几乎达到等同于人类的准确率。

研究小组的错误率达到5.9%,这是机器转译有史以来最低的数值,正确率几乎与正常人转述同段对话时差不多。这样的成绩,相较于微软一个月前达到的纪录,还进步了6%。

“我们已经达到与人类同等级的语言辨识技术。”微软公司首席语言科学家,兼发表论文的共同作者Xuedong Huang表示,“这是一个历史性的成就。”

闲聊是计算机辨识的一大挑战

微软的语言与对话研究部门的主管Geoffrey Zweig解释,对话性的言语对语言辨识技术来说,是相当大的挑战。

他表示,“语言辨识在人们随意谈天时会变得很困难,因为人们可能出现兴奋的情绪,讲错话之后又自行修正,更可能一直变换话题,这些都是对话闲谈时的特征。”

研究人员认为,他们能够在对话性的语言辨识技术上获得突破,大多要归因于深度学习,特别是系统化地使用了卷积(convolutional)与递归(recurrent)神经网络。在上回的研究计划中,研究小组运用了所谓“长短期记忆的神经网络”(LSTM, Long Short-Term Memory),加诸于其语言模型。

LSTM网络的优点是,“记忆”信息时间可以更长,因此相较于其它神经网络的语言模型,能够对更多字句保持敏感度。

强而有力的GPU = 快速的进展

NVIDIA的 GPU,和微软的Cognitive Toolkit 认知工具包(前称为CNTK,为开源式的深度学习架构),是达到人类水平之对话语言辨识技术的重大功臣。微软最近推出的Cognitive Toolkit认知工具包,是一个深度学习系统,用于加速语言与影像辨识技术,能够在GPU上进行相关搜寻。

Zweig表示:“如果不是藉由GPU的运算效能,我们无法完成这项工作。”使用了NVIDIA的Tesla M40 GPU之后,研究人员大幅减少了训练神经网络的时间,有些语言模型训练时间从几个月缩短为数周。Zweig说道,“这有很大的差别,因为我们进展的速度,与我们能够执行的测试数量有正相关。”

语言辨识技术准备大鸣大放

现实生活中的语言辨识还有很大进步空间,譬如派对或是街上的场景,可能会有音乐、往来车辆、路人的谈话,或者各式各样的背景音。研究人员也试图改善会议场合中的对话性语言辨识,此类情况的挑战是,一支麦克风,可能会从许多个距离不等的喇叭上播放声音。

Zweig认为研究的突破重点是,拥有了对的工具,能够迅速将新一代的语言辨识技术,安装于自家的Cortana个人数位助理、Xbox游戏主机、以及其他产品中。

研究小组的长期目标,是把语言辨识技术提升到理解的层次,如此一来,机器设备将能够回答问题,或是根据指令执行动作。