车内语音识别—VUI实验案例
该调查同时表明,车内语音界面的用户中有大约50%认为VUI(语音用户界面)性能在过去的两年中没有显著的提升。
时至今日,大部分人仍旧认为VUI是一个小工具,并不能替代传统触控屏以及物理按键这样强大的用户界面。尽管语音识别引擎在过去十年中已经取得重大进展,车内VUI性能的可靠性还是不尽如人意。语音信号受到干扰以及驾驶过程中的噪声即使对最前沿的语音识别引擎仍然是一种挑战。
图1:语音控制手册
当今的汽车制造商会随车提供一份本车VUI使用手册,比如宝马。但这些手册实质上把VUI创造合适运行环境的责任丢给了用户。
手册中针对用户的典型说明包括:“请避免背景噪声”,“在执行语音指令时,请车内乘客保持安静”等诸如此类的语句。这也难怪用户会因为机器无法准确识别他们的语音指令而心塞,从而对VUI又少了一份信任,减少了使用频率。
这正是Kardome的切入点所在。Kardome的技术能够让VUI在车内有多人讲话并且存在环境噪声的现实环境中工作。Kardome的软件允许多位用户同时与设备进行交互,不受到同车乘客说话的影响,即使在身处嘈杂的车厢环境中,也能享受到语音技术服务。Kardome能够最大程度地保障行车安全,为驾驶员/乘客提供优质的VUI使用体验。
本文将分享由声学解决方案以及声音振动分析领域的领导者HEAD acoustics GmbH开展的实验性研究的结果。该研究的目的是为了比较在120kph行驶速度的车内,分别使用标准免提电话音频栈和Kardome Gavel evaluation Kit内由人工智能控制的信号分离与降噪技术这两套语音处理系统,搭配谷歌语音转换文本(GSST)引擎测量得到的语音识别率。
结果表明Kardome的技术能够在任何声音环境下提升语音交互设备的语音识别能力。
SRR评价设置
Kardome的Gavel evaluation Kit被安装在雷诺Megane Grandtour汽车的车厢顶部,紧挨着标准免提电话系统的麦克风。我们同时在车内架设了四套人工头测量系统,通过人工头上的全语音频带的人工嘴来发送语音。
图2:使用4套人工头测量系统和Kardome Gavel evaluation Kit作为评估设置
我们考量了三种场景:
1.仅有主驾驶员说话
2.主驾与副驾同时说话
3.车内有四人同时说话
在以上所有场景中,位于车内的标准免提电话系统与Kardome的Gravel evaluation Kit会采集语音信号。HEAD acoustics的工程师通过比较GSST输出的文本与驾驶员实际的语音内容来测试语音识别率。
结果
图3显示了上述每一种考量的场景下的语音识别能力。图表中的每一根柱形图代表了在3种场景下两种语音处理方法(HFT与Kardome)测量得到的语音识别率。绿色柱形图代表HFT方法,蓝色柱形图代表Kardome的语音集群系统。
总结
Kardome由人工智能控制的信号分离与降噪技术显著地提高了实验中考量的各场景下的语音识别率。随着车内说话人数的增多,引入的对语音信号的干扰增强,非常明显地降低了标准免提电话系统的结果表现。然而Kardome技术能够免受车内说话人数与语音信号干扰的影响,始终保持稳定的语音识别能力。
使用Kardome提供的VUI设计来提高语音识别技术,能帮助语音助手厂家克服语音识别低效的问题,还能帮助车厂提高竞争力,在即将成为市场红海的带有语音助手功能的智能汽车中占据一席之地。
(本文由海德声科编译,原文请见Speech Recognition in Cars - An Experimental VUI Study (kardome.com))
最新资讯
-
荷兰Zepp氢燃料电池卡车-Europa
2024-12-22 10:13
-
NCACFE -车队油耗经济性报告(2024版)
2024-12-22 10:11
-
R54法规对商用车轮胎的要求(上)
2024-12-22 10:10
-
蔚来ET9数字架构解析
2024-12-22 09:53
-
4G/5G网络新时代的高效紧急呼叫系统NG-eCal
2024-12-20 22:33