百度DMA+小度App的蓝牙语音解决方案入局
前记
人机交互经历了三个阶段键鼠、触屏和语音交互。在国外,谷歌、亚马逊、苹果等巨头的竞争已经到达白热化状态;在国内,百度的DuerOS凭借着入局早,投入大,已经成为国内语音互交的一面旗帜。无论是从技术实力,还是商用步伐,它都走在国内AI公司的前列。想做AI语音的公司,跟着百度走,也算是一条路吧。
蓝牙智能语音现状
目前绝大多数蓝牙语音设备面临很多问题,包括需要触碰或按键触发,这在在车载上使用很不方便;在使用语音交互设备时,语音输入延时明显,甚至存在App串扰等问题。这也使得现在基于蓝牙协议的语音设备备受诟病。
造成这种现象的原因是大多蓝牙设备受限于芯片资源和成本,无法引入唤醒词,没有Hands-free体验;利用A2DP和HFP实现播放和语音输入;没有一种标准的协议可以支持蓝牙语音业务的,语音输入过程中会占用手机电话录音通道,造成用户体验非常的差。
DMA协议
为了更好的语音交互体验,百度开放了DMA蓝牙协议。给自己以及第三方方案厂商和产品公司使用,配合小度app来使用。
什么是DMA呢?DMA(DuerOS Mobile Accessory)协议在优化语音技术方案选型方案上包括三个方面:蓝牙传输协议选用BLE、RFCOMM双模,音频压缩推荐使用不影响语音交互效果的POUS压缩,唤醒方式,支持触碰、按键、唤醒词多种交互方式。
当外设收到请求会反馈版本等信息,如果手机只支持BLE,则通过BLE配对;如果支持RFCOMM,则选用RFCOMM配对。
百度的商业模式
百度开放的原因是想依靠这来抢占语音的流量入口。硬件他们是不愿意碰的,也不是他们擅长的领域,这些电子硬件产品对百度来说,是一个赚钱太难的行业。远远没有卖广告赚钱。
百度通过小度App提供内容,通过DMA SDK和源代码提供设备相关定制方案及能力支持。来打通整个产业链,让每个设备都能够使用小度app来进行服务就行了。这种模式下的方案主要有两种:
基础版:通过车载蓝牙方案解释了合作方面,首先提供一块PCBA板,合作伙伴可以基于此进行开发,厂商如果只需要小度相关的语音交互功能的基础能力和5W无线充电,通过这一方案,几天时间就可以实现;
定制版:如果用户需要更多定制功能,百度提供基于DMA协议的功能底板和蓝牙模组,提供开放接口的功能底板,以做定制功能开发。还可以有第三方方案公司来提供百度的方案。
当然,百度的这种说法,定制开发,也只能局限于非常大的客户,假如你是中小企业,想让百度去帮忙定制开发,难度估计大了一些。
用户体验
DMA有效解决了经典蓝牙协议的三个痛点:
1 操纵耳机必须要靠按键:可以通过语音实时唤醒,拨打电话,播放指定音乐等功能。
2 本地语音唤醒识别率低:支持语义唤醒,优化后的模型,在复杂环境下唤醒率也能达到97%以上
3 语音输入延时明显问题。DMA协议使用的是BLE/RFCOMM通道,不但能够和A2DP可以同时使用,还可以有效减少蓝牙系统中的编解码时间,能够极大的压缩音频的延时,延时从500ms~2000ms下降到200ms~300ms;这个对用户的实时语音互交体验是一个质的提升。