针对机器感知预调节音频制造技术

技术编号:32964224 阅读:41 留言:0更新日期:2022-04-09 11:06
一种针对机器感知预调节音频的装置和方法。机器感知不同于人类感知,并且与用于人类感知应用(例如,语音通信)的处理参数相比,用于机器感知应用(例如,语音到文本处理)的处理参数不同。这些不同的参数可以产生经预调节的音频,经预调节的音频对于人类感知是恶化的,而对于机器感知是改善的。而对于机器感知是改善的。而对于机器感知是改善的。

【技术实现步骤摘要】
【国外来华专利技术】针对机器感知预调节音频
[0001]相关申请的交叉引用
[0002]本申请要求2019年8月30日提交的欧洲专利申请No.19194685.4和2019年8月30日提交的美国临时专利申请No.62/893,972的优先权,其通过引用合并于此。


[0003]本公开涉及音频处理,尤其涉及音频的机器感知。

技术介绍

[0004]除非本文另有说明,否则本节中描述的方法不是本申请中的权利要求的现有技术,并且不因为包含在本节中而被承认为现有技术。
[0005]音频处理的一个重要用途是以改善(或者至少以人类收听者可接受的方式影响)人类感知的方式处理音频。例如,回声的存在会极大地分散人的注意力,因此音频处理系统可以包括激进的回声消除,以改善音频处理系统的(感知)性能。该性能改善可以定性地(例如,通过收听者调查)、定量地(例如,通过各种感知度量)测量,等等。
[0006]人类并不是音频通信的唯一目标听众。机器也可以感知音频。音频的机器感知通常可以被称为自动语音识别(ASR)。ASR包括诸如唤醒词检测、语音到文本处理、语音识别、说话者识别、情感识别、语言识别等活动。

技术实现思路

[0007]虽然人类感知和机器感知相似,但人类感知和机器感知之间有许多差异。如下面详细阐述的,这些差异导致用于机器感知的音频处理参数不同于用于人类感知的音频处理参数。事实上,这些不同的参数往往会导致根据人类感知,处理后的音频变差,而机器感知的性能却得到改进。
[0008]本文描述的实施例涉及针对机器感知预调节音频。
[0009]根据实施例,一种方法针对机器感知处理音频。该方法包括接收音频信号,其中音频信号对应于已经由设备捕获的音频。该方法还包括根据机器感知参数对音频信号进行预调节,以生成经预调节的音频信号,其中机器感知参数与人类感知参数不同。该方法还包括对经预调节的音频信号执行机器感知,包括自动语音识别,以生成机器感知输出。
[0010]人类感知参数可以对应于具有100至200ms的收敛性(convergence)的第一回声消除参数,并且机器感知参数可以对应于具有小于50ms的收敛性的第二回声消除参数。人类感知参数可以对应于比语音水平低不止20dB的第一噪声抑制目标,并且机器感知参数可以对应于比语音水平低10至15dB的第二噪声抑制目标。人类感知参数可以对应于舒适噪声,并且机器感知参数可以对应于比舒适噪声大20至25dB的掩蔽噪声。
[0011]根据一个方面,提出了一种针对机器感知处理音频的方法。该方法可以包括接收音频信号,其中音频信号对应于已经由设备捕获的音频。该方法可以包括通过将噪声添加到音频信号来对音频信号进行预调节,以生成经预调节的音频信号。该方法可以包括对经
预调节的音频信号执行机器感知,包括自动语音识别,以生成机器感知输出。
[0012]所添加的噪声可以具有粉色或白色噪声的特性。在本文档内,所添加的噪声还可以被表示为掩蔽噪声。在围绕语音的存在性和检测没有任何检测或选通(gating)的情况下,该掩蔽噪声可以被连续地添加到语音。掩蔽噪声可以具有粉红色或(谱形)白噪声的特性,其频谱形状与Hoth噪声的轮廓相似,只是比Hoth噪声高10dB以上的水平。收听测试中的这种噪声水平可以被认为是侵入性的、人为的,对人类收听体验来说总体上是降级。然而,录音中可能存在的其他较低水平噪声的添加和模糊,或者可能由噪声抑制引起的伪影,可能对自动语音识别的性能具有净积极影响。
[0013]与音频信号的噪声场的均匀性(uniformity)相比,经预调节的音频信号的噪声场的均匀性可以增加。以此方式,所添加的噪声可以向经预调节的音频信号添加歧义性。
[0014]根据另一方面,提出了一种针对人类感知和针对机器感知处理音频的方法。该方法可以包括接收音频信号,其中音频信号对应于已经由设备捕获的音频。该方法可以包括通过减少回声残余,针对人类感知对音频信号进行预处理,以生成经预处理的音频信号。该方法可以包括通过减少回声残余,针对机器感知对音频信号进行预调节,以生成经预调节的音频信号。经预调节的音频信号的回声残余量高于经预处理的音频信号的回声残余量。该方法可以包括对经预调节的音频信号执行机器感知,包括自动语音识别,以生成机器感知输出。换言之,当生成针对机器感知的经预调节的音频信号时,降低了回声减少的程度。
[0015]在该方法中,针对人类感知对音频信号进行预处理可以包括根据第一回声消除参数进行预处理。此外,针对机器感知对音频信号进行预调节可以包括根据第二回声消除参数对音频信号进行预处理。第二回声消除参数可以具有比第一回声消除参数的收敛性更小的收敛性。更具体地,第一回声消除参数可以具有100至200ms的收敛性,并且第二回声消除参数可以具有小于50ms的收敛性。例如,第一回声消除参数可以对应于小于

60dB的第一回声量,并且第二回声消除参数可以对应于

40至

20dB的第二回声量。
[0016]根据另一实施例,一种非瞬态计算机可读介质存储计算机程序,所述计算机程序在由处理器执行时控制装置执行包括一个或多个上述方法的处理。
[0017]根据另一实施例,一种装置针对机器感知处理音频。该装置包括处理器以及存储器。处理器被配置为控制所述装置接收音频信号,其中音频信号对应于已经由设备捕获的音频。处理器被配置为控制所述装置根据机器感知参数对音频信号进行预调节,以生成经预调节的音频信号,其中机器感知参数与人类感知参数不同。处理器被配置为控制所述装置对经预调节的音频信号执行机器感知,包括自动语音识别,以生成机器感知输出。
[0018]该装置可以包括与本文关于方法讨论的细节类似的细节。
[0019]下面的详细描述和附图提供了对各种实现方式的性质和优点的进一步理解。
[0020]根据又一个方面,描述了一种用于针对机器感知处理音频的装置。该装置可以包括处理器以及存储器。处理器可以被配置为控制所述装置接收音频信号,其中音频信号对应于已经由设备捕获的音频。处理器可以被配置为控制所述装置通过将噪声添加到音频信号来对音频信号进行预调节,以生成经预调节的音频信号。处理器可以被配置为控制所述装置对经预调节的音频信号执行机器感知,包括自动语音识别,以生成机器感知输出。
[0021]所述添加的噪声可以具有粉色或白色噪声的特性。与音频信号的噪声场的均匀性相比,经预调节的音频信号的噪声场的均匀性可以增加。
[0022]根据另一方面,提出了一种用于针对人类感知和针对机器感知处理音频的装置。同样,该装置可以包括处理器和存储器。处理器可以被配置为控制所述装置接收音频信号,其中音频信号对应于已经由设备捕获的音频。处理器可以被配置为控制所述装置通过减少回声残余,针对人类感知对音频信号进行预处理,以生成经预处理的音频信号。处理器可以被配置为控制所述装置通过减少回声残余,针对机器感知对音频信号进行预调节,以生成经预调节的音频信号,其中经预调节的音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种针对机器感知处理音频的方法,所述方法包括:接收音频信号,其中所述音频信号对应于已经由设备捕获的音频;根据机器感知参数对所述音频信号进行预调节以生成经预调节的音频信号,其中所述机器感知参数不同于人类感知参数;以及对经预调节的音频信号执行机器感知以生成机器感知输出,所述机器感知包括自动语音识别。2.如权利要求1所述的方法,其中所述人类感知参数对应于具有100至200ms的收敛性的第一回声消除参数,并且其中所述机器感知参数对应于具有小于50ms的收敛性的第二回声消除参数。3.如权利要求1

2中任一项所述的方法,其中所述人类感知参数对应于比语音水平低不止20dB的第一噪声抑制目标,并且其中所述机器感知参数对应于比语音水平低10至15dB的第二噪声抑制目标。4.如权利要求1

3中任一项所述的方法,其中所述人类感知参数对应于舒适噪声,并且其中所述机器感知参数对应于比所述舒适噪声大20至25dB的掩蔽噪声。5.如权利要求1

4中任一项所述的方法,还包括:通过扩音器输出基于扩音器信号的扩音器输出;通过靠近所述扩音器的麦克风捕获捕获的音频信号,所述捕获的音频信号包括回声分量和捕获分量,其中所述回声分量对应于已经由所述扩音器输出的所述扩音器输出,并且其中所述捕获分量对应于除所述扩音器之外的音频源;以及使用所述扩音器信号对所述捕获的音频信号执行回声消除以生成所述音频信号。6.如权利要求1

5中任一项所述的方法,其中所述音频信号包括语音,并且其中与在执行机器感知时使用所述人类感知参数相比,所述机器感知参数在执行机器感知时改进所述语音的机器感知。7.如权利要求1

6中任一项所述的方法,其中所述机器感知参数包括噪声参数;其中,对所述音频信号进行预调节包括根据所述噪声参数向所述音频信号添加噪声以生成所述经预调节的音频信号;并且其中,与所述音频信号相比,所述噪声参数增加所述经预调节的音频信号的噪声场的均匀性。8.如权利要求1

7中任一项所述的方法,其中,所述机器感知参数包括延迟参数和选通参数;其中,对所述音频信号进行预调节包括根据所述延迟参数施加延迟,以及根据所述选通参数施加填充选通以生成所述经预调节的音频信号;并且其中,所述延迟参数在对所述音频信号进行预调节时引入延迟,并且其中,所述选通参数在对所述音频信号进行预调节时引入斜坡进入和斜坡外出。9.如权利要求1

8中任一项所述的方法,其中所述人类感知参数对应于小于

60dB的第一回声量,并且其中所述机器感知参数对应于

40至

20dB的第二回声量。10.一种针对机器感知处理音频的方法,所述方法包括:接收音频信号,其中所述音频信号对应于已经由设备捕获的音频;通过将噪声添加到所述音频信号来对所述音频信号进行预调节以生成经预调节的音
频信号;以及对所述经预调节的音频信号执行机器感知以生成机器感知输出,所述机器感知包括自动语音识别。11.如权利要求10所述的方法,其中,所添加的噪声具有粉色或白色噪声的特性。12.如权利要求10或11所述的方法,其中与所述音频信号的噪声场的均匀性相比,所述经预调节的音频信号的噪声场的均匀性增加。13.一种针对人类感知和针对机器感知处理音频的方法,所述方法包括:接收音频信号,其中所述音频信号对应于已经由设备捕获的音频;通过减少回声残余,针对人类感知对所述音频信号进行预处理以生成经预处理的音频信号;通过减少回声残余,针对机器感知对所述音频信号进行预调节以生成经预调节的音频信号,其中所述经预调节的音频信号的回声残余量高于所述经预处理的音频信号的回声残余量;以及对所述经预调节的音频信号执行机器感知以生成机器感知输出,所述机器感知包括自动语音识别。14.如权利要求13所述的方法,其中针对人类感知对所述音频信号进行预处理包括根据第一回声消除参数进行预处理;并且针对机器感知对所述音频信号进行预调节包括根据第二回声消除参数对所述音频信号进行预处理,其中第二回声消除参数具有比第一回声消除参数的收敛性更小的收敛性。15.如权利要求13或14所述的方法,其中第一回声消除参数具有100至200ms的收敛性,并且第二回声消除参数具有小于50ms的收敛性。16.如权利要求13

15中任一项所述的方法,其中第...

【专利技术属性】
技术研发人员:H
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1