什么是语言清晰度指数(Articulation Index)?

2018-10-09 21:29:18·  来源:海德声科  
 
以上场景是描述语言清晰度的典型应用吗?大爷能不能说夏洛的语言清晰度不高呢?大爷这种揣着明白装糊涂的做法固然不能效仿,但是语言清晰度指数(AI)这事我们今天得说个明白。
夏洛:大爷,楼上322住的是马冬梅家吧?
大爷:马冬什么?
夏洛:马冬梅。
大爷:什么冬梅?
夏洛:马冬梅啊。
大爷:马什么梅?
夏洛:行,大爷你先凉快着吧。
大爷:好嘞。

以上场景是描述语言清晰度的典型应用吗?大爷能不能说夏洛的语言清晰度不高呢?大爷这种揣着明白装糊涂的做法固然不能效仿,但是语言清晰度指数(AI)这事我们今天得说个明白。

什么是语言清晰度?

语言清晰度是音质评价的重要指标,用于评估室内或者声音传播系统的声音传输质量。对于语言清晰度的客观评价研究从上世纪二三十年代就开始,大约在四十年代形成了第一个客观评价指标:清晰度指数(AI)。经过后续研究,又发展出语言清晰度(SII,SpeechIntelligibility Index)、语言传递指数(STI,Speech Transmission Index)等参数,更详细地考虑到声音环境、混响、回声、语音频谱等等影响,广泛应用于建筑、电信、医疗等行业。
在NVH行业常说的语言清晰度指的就是Articulation Index这个最早出现的指标,主要应用于噪声环境下说话的可懂程度,考察车内噪声对于驾乘人员信息交流的影响。因为车内交流环境比较单一,对于语言清晰度的要求没那么高,所以汽车行业大多直接使用AI这一指标。该指标可以直接现场测试数据分析得到,方便实用。而且,AI的计算主要是200-6300Hz倍频程范围的能量大小,正好对应了中频的能量,结合尖锐度、响度指标,可以方便判断噪声在低频段、中频段、高频段的不同分布,所以一直沿用至今。
常规的清晰度指数需要先测试或估计语音频谱和听音处噪音的有效掩蔽谱,然后进行计算。在汽车NVH行业,可直接使用一个标准的语音频谱,仅测试车内噪音,就可以得到清晰度指数。因此,清晰度指数AI,指的是发生交谈或者可能交谈的环境中,背景噪声的频率成分和能量分布,是评估背景噪音的指标,不是针对于人发音而言的,所以夏洛说话是不能用AI来评估的,大伙记住了哦。当然,由于使用了标准的语音频谱,其结果主要是针对普通人群的交谈,换做是儿童,这个指标就不太适用了。
如何计算清晰度指数?
下面我们来看看清晰度指数是如何计算的。首先测试噪声的频谱分量(1/3倍频程曲线),然后根据其频率成分对于理解语音内容的权重(主要考虑是不是人讲话的频率),求和即可以得到最终的清晰度指数。权重可以从表1里查到,清晰度指数在NVH行业是0~100%范围内的值。如果噪声频谱位于语音区域的下部, 则交谈只会稍有干扰,清晰度指数达到高值 (≈ 100%);如果噪声谱在语音区域的上部, 交流变得更加困难,清晰度指数达到低值(≈ 0%)。



表1 标准AI 计算

从表1中我们可以发现,每一个倍频程的幅值范围是30dB。如果测到的数据落在这个范围以外,那么就取对应频段的最大值或者最小值,所得到的结果即为标准清晰度指数。

另一种算法是将幅值范围扩大到80dB,如表2所示。所得到的结果成为扩展清晰度指数(Extended AI或者Open AI)。如果测试数据落在表中黄色区域(标准AI区域),那所得到的结果和标准AI结果一致;如果测试数据超过了黄色区域,到了绿色或者橙色区域,则按照对应的值计算(包括负值)。最终扩展清晰度指数是在-108%~160%之间。



表2 扩展AI 计算
语言干扰及其算法

在NVH应用中,还有另外一个可能用到的语音指标,叫做语言干扰级(SIL)。这个指标实际上是语言清晰度的简化,用更简单的方法来表示背景噪音对于语音交谈的影响。最常见的语言干扰级有以下三种算法:
PSIL:中心频率为500 Hz、1 kHz和2 kHz之间三个倍频带声压级的算术平均值。
SIL3:中心频率为1 kHz、2 kHz和4 kHz 之间三个倍频带声压级的算术平均值。
SIL4:中心频率为500 Hz、1 kHz、2 kHz和4 kHz 之间四个倍频带声压级的算术平均值。
得到的语言干扰级曲线和清晰度指数曲线差不多是上下相反的形状。如下图所示:



PSIL结果和AI结果对比


分享到:
 
反对 0 举报 0 收藏 0 评论 0
  • 汽车测试网V课堂

    汽车测试网V课堂

  • 微信公众号

    微信公众号

  • 汽车测试网手机站

    汽车测试网手机站

0相关评论
沪ICP备11026917号-25