中国工程科技知识中心

新闻详情

【研究报告】微软语音识别最新技术报告

发布时间: 2017-09-12 11:49:14

微软语音识别系统取得最新突破:微软的语音对话研究小组在Switchboard语音识别任务中,将错误率从去年的 5.9% 再一次降低到 5.1%,达到目前最先进水平。

Switchboard 是一个电话通话录音语料库,这种语料库用于语音识别系统的研究已经超过20年了。任务包括转写陌生人之间的话题讨论,比如关于体育或政治话题的对话。 我们对基于神经网络的语音和语言模型做了一系列改进,和去年的精确度相比,错误率大大降低。

微软语音识别最新技术报告.pdf

我们又为改进语音模型引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外,我们现在在 frame/senone 和词语层面都使用了结合多个声学模型的预测的方法。 此外,我们通过使用整个对话过程来加强识别器的语言模型,以预测接下来可能发生的事情,使得模型有效地适应了对话的话题和语境。

我们的团队使用最可扩展的深度学习软件Microsoft Cognitive Toolkit 2.1(CNTK),用于探索模型架构和优化我们的模型的超参数。此外,微软对云计算基础设施(特别是Azure GPU)的投资,也有助于提高我们训练模型并测试新想法的有效性和速度。

达到人类水平精度,能够与人类对话,是过去25年来微软的研究目标。微软对长期研究的投入,已经在诸如Cortana,演示文稿转换器(Presentation Translator)和Microsoft认知服务等产品和服务上见到了成效。我们的研究团队非常高兴地看到,每天都有数百万在使用的我们工作成果。

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任。

© 2012 CKCEST ICP备案号:京ICP备14021735号-2
技术支持:浪潮集团有限公司 法律声明|联系我们|关于我们