语音识别真的比肩人类了？听听阿里iDST初敏怎么说

摘要：语音识别真的比肩人类了吗？各种算法之间该如何选择？如何提升语音交互的用户体验？带着这些问题，云栖社区采访了阿里云iDST智能交互总监初敏，听听她是怎么说的。

编者按：由中国人工智能学会、阿里巴巴以及蚂蚁金服联合主办，CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会（CCAI 2017）将于7月22-23日正式召开，大会期间阿里云iDST智能交互总监初敏将在“语言智能与应用”论坛上分享语音交互技术的趋势，在此之前，阿里云云栖社区作为独家直播合作伙伴采访了初敏。

围绕语音交互的入口之争正愈演愈烈，siri、echo这些产品风靡全球的同时，国内外科技巨头、创业团队也在暗流涌动，各种智能音箱以及语音解决方案层出不穷。

毫无疑问，语音交互已经成为人工智能领域最成熟也是落地最快的技术。尤其是深度学习的起势，让语音识别、语音合成以及自然语言处理的发展速度提升到了一个新的高度。

于是乎，各种美化宣传扑面而来！

“XXX产品识别准确率高达99%，识别准确率比肩人类！”

然而，事实并非如此。市面上已有的语音交互产品或多或少都存在一些通病：在特定领域效果不错，但超出指定范围就差强人意了，这样的问题让用户整体体验大打折扣…

语音识别真的比肩人类了吗？各种算法之间该如何选择？如何提升语音交互的用户体验？带着这些问题，云栖社区采访了阿里云iDST智能交互总监初敏，听听她是怎么说的。

51c6931ad8cb4450f0ce10c663b949383825c344

（注： iDST语音识别团队曾在2016年以0.67%的准确率优势击败了世界速记大赛亚军蒋毅，据了解，iDST团队使用了BLSTM算法，这种算法对单位时间内的计算量要求很高，为此他们做了很多针对性的优化工作，才能让这个算法提供实时服务，并第一次在工业界进行了大规模部署。）

以下内容整理自采访录音：

云栖社区：从国内外的趋势来看，语音交互技术的应用越来越多，您认为推动语音技术普及的主要原因是什么？

初敏：语音有两个大的方向在用，第一个把语音当成数据，例如在讲座、法院，或者是客服这些场景中，之前有的会录音，有的不录音，讲完就过去了，而现在这些语音都会记录下来，而且还会识别成文字，这实际上是一个数据积累的过程，我们可以对这些文本化的数据进行各种分析、挖掘和加工等等。

另外一个就是大家更关注的语音交互，语音交互之所以越来越被重视，我觉得是因为互联网、智能硬件的普及。未来智能电视、智能音箱，甚至到以后的日常设备，都可以变成一个互联网的入口，语音就是最简单的，最直接的交互方式，是通用的输入模式。

当然现有的很多语音产品还没有那么成功，我认为虽然现在产品比较多，但是真正好用的，让人经常想用的却不多。

云栖社区：就像您提到的现在语音识别产品用起来其还会有各种各样的问题，要达到真正完全可用的状态我们还需要克服哪些难题？

初敏：我觉得脱离了应用场景讲识别准确率、讲产品根本就是不靠谱的，大家谈到的百分之多少的识别准确率理论上不存在，任何一个准确率都是在特定场景下测出来的，不同的场景测出来不一样，做一套模型在所有场景上都达到非常高的准确率，是不太现实的。

以云栖大会为例，云栖大会的Talk，语音识别准确率基本上能做到95%以上，但如果突然邀请一个特殊领域的讲演者，比如医疗领域，可能就很难达到同样好的效果，因为现有模型在医疗领域的知识积累不够。所以，要把语音技术在各种领域普及开来，能快速针对不同场景进行模型调优和定制变得非常重要，这也是我们下面主要推进的一个方向。

云栖社区：阿里在语音交互上重点做了哪些事？

初敏：这两年来我们其实做了很多工作。

一方面是在算法方面的尝试，语音这两年进步的比较快实际上就是深度学习的成功应用，我们尝试了各种深度学习模型，如DNN、CNN、BLSTM（双向长短时记忆神经网络），特别是在业界最先大规模上线了基于BLSTM的系统。同时，我们也会尝试各种新算法。需要提到的是有些算法比较复杂，实验效果好，但是上线就有些难度，所以我们需要进行大量的尝试。另外，现在这些模型的训练是复杂度挺高的，训练的时间一般会很长，特别是当你的数据特别多的时候。模型训练的很大一部分任务要由GPU处理，在多台机器上的多块GPU卡上并行训练，才能提升模型优化的效率，因此我们也需要进行一些这种底层基础设施的建设（详见：GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware）。

另一方面，我们也在在建模单元上做一些尝试，传统的做法是对状态建模（通常把一个音素切成三个状态），现在我们成功的使用音素作为建模单元，在准确率保持的前提下，解码效率提升高三到五倍。更大的建模单元也在尝试中。

除了语音识别，我们在语音合成、对话管理，问答等方面也做了很多工作，还包括在不同端上的信号处理，例如麦克风阵列等等都是要去实践的。这样才能完成语音交互的完整过程。

云栖社区：在算法的选择上是怎么考量的？

初敏：算法实际上有很多，DNN是全连接的，CNN是有卷积的，然后RNN基本上是序列的，我们实验最成功的是双向的BLSTM，而现在还是有些其他的选择，包括优化准则方面的变化。最终在线上系统采用什么算法，需要综合考虑，既要看效果，同时还要考虑到计算效率，部署成本等因素。

云栖社区：去年双十一阿里ET语音交互系统有亮相，它还有哪些提升空间？

初敏：ET语音交互系统确实还有改善的空间，我们平常准确率能做到95%、96%的水平，但当时主持人讲的语速太快，准确率也就不尽如人意了。此外，跟主持人交互的自由度方面，也还有很多可以做的事情。

云栖社区：团队做了哪些改善方案？

初敏：要在更多的场景用好就必须要有大量的数据。因为场景的磨合都是和数据有关，数据是什么场景来的，它就可以在这个场景下取得好的效果。之前我们在客服领域的数据特别多（详见：语音识别助力客服小二：集团语音识别技术在留声机、服务宝项目中的应用），然后还有一些就手机端的，比如说手淘（详见：阿里小蜜：语音识别、语义分析、深度学习在手机淘宝的实战分享），但是视频类的就会差一些。因此，我们就有针对性的增加数据，同时增加各种可能的背景噪声，在专门优化后，视频里的语音的识别效果就大幅提升了。因此，快速的模型定制对语音技术的广泛应用非常重要。

我们现在花了很多时间研发系统的定制能力，这样用户在系统上提交数据就可以通过我们的自动流程来定制他们的模型，这个模型在他们需要的场景下可以取得比通用模型更好的效果。我们现在很多的工作是从这个角度来看。我认为将来这方面是谁的能力最强，谁就能真正在市场上快速把它用起来。

目前市面上，基本上还没有哪个团队在提供快速定制化服务，我们是非常领先的。

云栖社区：下个月举行的CCAI大会上开设了“语言智能与应用”论坛，针对这一方向，您认为现在学术界和产业界还存在哪些痛点？

初敏：就像你刚才问到的，语音识别宣传得很好，但很多时候用起来还没有预期的那么好，主要是因为技术到产品的落地之间还有很多工作没有做好、做细致。

语音识别不是万能的，随便一接就可以的用的很顺畅的。

技术使用起来往往需要一个迭代的过程的，需要先上线，然后在场景里收集数据去评估，优化模型，改善用户体验。经过几轮迭代，才可以发挥最佳效果。其他AI技术也是相似的。今天很多AI技术的用户很容易把技术的能力理想化，感觉一引入，就应该立竿见影的看到效果。看到实际效果不尽人意时，就会感觉有很大的落差，失望和放弃。所以，我想强调的是，一方面智能语音技术已经达到广发应用的水平，同时在真正落地的时候，要充分认识到可能遇到的困难，有持久战的思想准备。

云栖社区：下个月您会在CCAI语音交互分论坛上分享，作为演讲嘉宾您希望能给开发者带来什么样的帮助？

初敏：语音交互技术在未来三五年内会大规模应用，这是大家都看到的趋势，但是换句话说，大家都希望产品在目标场景中取得好的效果，但现实很残酷，并不是每个人都是算法或者人工智能领域的资深专家，需要一个不断学习和迭代的过程。AI技术的应用是一个系统工程，我们要有足够的耐心去打通产品和体验的优化链路，在应用中不断提升效果。

CCAI大会简介：

CCAI 2017大会由中国科学院院士、中国人工智能学会副理事长谭铁牛，阿里巴巴技术委员会主席王坚，香港科技大学计算机系主任、AAAI Fellow 杨强，蚂蚁金服副总裁、首席数据科学家漆远，南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展，汇聚了超过 40 位顶级人工智能专家，带来 9 场权威主题报告，以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛，届时将有超过 2000 位人工智能专业人士参与。报名请戳这里！

大会讲师采访：