关于语音识别的一些见解

ttllllll6 2021-10-29 原文

　　最近语音识别技术的发展非常迅速，像科大讯飞这样领先的技术基本可以做到百分之七八十的正确率了。但为什么使用语音识别技术的人依然这么少呢，而且用的基本都是休闲的应用。

　　归根结底，就是因为现在的语音识别技术无法做到实时。

　　说道语音识别，人们对他的第一印象就是他很方便，毕竟不管在何处，只要动一动口就能解决肯定比动手方便。但是目前的语音识别都需要我们事先开启，才能去判断我们说的话。这样的话，语音识别的方便就谈不上了——既然都已经拿出手机了，不如直接用手机去控制，也就没必要去开口使用那不是完全准确的语音识别了。

　　既然如此，语音识别的实时话应该很难咯？

　　我觉得其实不然。语音识别要实时化首要的问题就是功耗，现在的智能手机本来的续航就不久，一直打开一个耗电的语音识别肯定不行。不过，实时的语音识别真的很耗电吗？在安静的情况下，判断一个人开口说话应该不需要很大的消耗（即使软件实现可能不行，不过硬件一定可以）。而知道一个人说话了，只需要判断一两秒的语音就可以判断是不是命令。如果不是，就可以等待到安静后的下一段话的开始了。如果周围的环境很吵杂，大可以关闭不算太重要的语音识别。这样的话，实时化的功耗应该可以接受才是。由此可见语音识别的实时化是可行的，也应该是必然的。

　　新的智能手机如果想要吸引消费者的话，一个基本准确的，实时的语音识别功能无疑是很有吸引力的。

　　以上是个人的一些拙见，如有不足，还请各位大大见谅。

　　~~~~~~虽然很想自己做，无奈自己的知识不够啊。