重磅 | 语音唤醒性能升级,误唤醒率下降60%+

  2018-01-06 11:30:25

 
设备唤醒的高灵敏,容易触发更多的误唤醒。用户在聊天或者看电视的时候,就常常遇到旁边的智能音箱突然被唤醒,被“插话”,让用户不胜其烦。此前,大部分产品能达到2次/24小时的误唤醒率已经算是不错的水平。而思必驰最新的技术优化后, 500h+实测,每48小时误唤醒仅一次,在维持超高唤醒率的同时,误唤醒率相对降低60%。
 
AI已成为无人不谈的话题,曾经,“Hey Siri”为我们带来新鲜,成为启动IPhone语音助手的第一步,逐渐地,“Hi Cortana”,“Alexa”,“OK Google”等走进我们的生活,这些语音命令均为智能设备的“名字”,即预设“唤醒词”,唤醒是人机交互的必要一环。
 
语音唤醒,开启语音交互的第一步
 
传统的人机交互方式往往需要通过手动按钮来开启,但这种方式在需要解放双手和远场环境中显得力不从心,而且在实际使用中,设备亦不可能一直监听说话内容,此时我们需要一个触发机制,一旦触发,设备就开始分析用户需求,否则设备处于待机状态。
 
现在唤醒就充当这个触发机制。当用户企图开启带有语音功能的设备时,无需动手,可直接说出“唤醒词”,处于休眠/待机状态下的设备检测到用户的声音指令,会从休眠/待机状态快速进入工作状态。简言之,语音唤醒即通过预设唤醒词,激活设备的识别引擎,开启语音交互。
 
语音唤醒的优势:
a) 解放双手,随叫随到。
b) 唤醒触发目标角度增强,语音识别,声纹识别,避免设备长时间处于工作状态,达到省电低功耗的目的。
目前思必驰支持自定义唤醒词,用户可以根据产品的个性化需求选择合适的词。唤醒词的选择标准:
a) 最好3~5个字
b) 相邻音节之间的差异尽量大些,避免用叠字;
c) 避免选择多音字,地区发音差异大的字;
d) 选择开口大,响度大,发音较清晰的字;
e) 选用非常用词,减少误唤醒的可能。
 
误唤醒却带来了麻烦
 
目前,市场上已经出现了很多具备语音功能的智能硬件产品,智能后视镜、智能音箱、机器人、智能电视等等,这些产品不约而同地追求超高唤醒率,而设备唤醒的高灵敏,容易触发更多的误唤醒。用户在聊天或者看电视的时候,就常常遇到旁边的智能音箱突然被唤醒,被“插话”,让用户不胜其烦。
 
 
例如,用户口中的“小明”意图为产品指代,并非唤醒指令,但设备却被“误唤醒”。在语音交互过程中,误唤醒是指设备听到与唤醒词相近的音而被误触发的情况,这会导致处于工作状态的设备会将“听”到的内容在本地或云端保存下来,引起用户对隐私安全问题的担忧,给用户生活带来了麻烦。
 
如何让智能设备准确判断用户的使用状态,捕捉用户意图,降低误唤醒率,是提升产品体验的重要一环!
 
思必驰语音技术升级,误唤醒率降低60+%
 
针对令人头疼的误唤醒情况,思必驰近期升级了超低误唤醒技术。基于云端的唤醒词验证办法,通过大数据分析,获取用户使用状态分布,采用深度学习技术,分析当前声学环境,挖掘用户意图,从而动态调节唤醒的状态。特别是结合环形麦克风阵列,可以更有效捕捉用户空间声学环境,更加有效地降低误唤醒。
 
此前,大部分产品能达到2次/24小时的误唤醒率已经算是不错的水平。而思必驰最新的技术优化后,在普通干扰环境(背景聊天,电视播放等)下的500h+实测,每48小时误唤醒仅一次。在维持思必驰超高唤醒率的同时,误唤醒率相对降低60%,产品体验大大提升。阿里天猫精灵的最新版本的唤醒性能已显著提升,欢迎大家实测! 
 
双面功能更机智
 
 
在上图中,思必驰语音系统可以根据先验知识,追踪用户的使用状态,准确判断用户是否在真正唤醒设备,抑制误唤醒。
 
 
同时,当用户说话声较小,背景噪声环境、交互距离等因素造成收音效果不佳时,系统会追踪用户的说话意图,判断用户是否在尝试进行语音交互,并做出反馈。
 
它和思必驰麦克风阵列方案更配哦!
 
思必驰线性4麦阵列、环形6麦阵列都有着十分优秀的前端信号处理能力,能够有效抑制噪声并进行语音增强,准确计算说话人的角度和距离,实现对目标说话人的跟踪和语音定向拾取,支持5米远场交互和180°/360°全角度拾音。思必驰超低误唤醒率技术结合麦克风阵列,可以更有效捕捉用户空间声学环境,追踪用户意图,更有效减少误唤醒。