【技术实现步骤摘要】
【国外来华专利技术】针对机器感知预调节音频
[0001]相关申请的交叉引用
[0002]本申请要求2019年8月30日提交的欧洲专利申请No.19194685.4和2019年8月30日提交的美国临时专利申请No.62/893,972的优先权,其通过引用合并于此。
[0003]本公开涉及音频处理,尤其涉及音频的机器感知。
技术介绍
[0004]除非本文另有说明,否则本节中描述的方法不是本申请中的权利要求的现有技术,并且不因为包含在本节中而被承认为现有技术。
[0005]音频处理的一个重要用途是以改善(或者至少以人类收听者可接受的方式影响)人类感知的方式处理音频。例如,回声的存在会极大地分散人的注意力,因此音频处理系统可以包括激进的回声消除,以改善音频处理系统的(感知)性能。该性能改善可以定性地(例如,通过收听者调查)、定量地(例如,通过各种感知度量)测量,等等。
[0006]人类并不是音频通信的唯一目标听众。机器也可以感知音频。音频的机器感知通常可以被称为自动语音识别(ASR)。ASR包括诸如唤醒词检测、语音到文本处理、语音识别、说话者识别、情感识别、语言识别等活动。
技术实现思路
[0007]虽然人类感知和机器感知相似,但人类感知和机器感知之间有许多差异。如下面详细阐述的,这些差异导致用于机器感知的音频处理参数不同于用于人类感知的音频处理参数。事实上,这些不同的参数往往会导致根据人类感知,处理后的音频变差,而机器感知的性能却得到改进。
[0008]本文描述的实施例涉及针对机器感知预 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种针对机器感知处理音频的方法,所述方法包括:接收音频信号,其中所述音频信号对应于已经由设备捕获的音频;根据机器感知参数对所述音频信号进行预调节以生成经预调节的音频信号,其中所述机器感知参数不同于人类感知参数;以及对经预调节的音频信号执行机器感知以生成机器感知输出,所述机器感知包括自动语音识别。2.如权利要求1所述的方法,其中所述人类感知参数对应于具有100至200ms的收敛性的第一回声消除参数,并且其中所述机器感知参数对应于具有小于50ms的收敛性的第二回声消除参数。3.如权利要求1
‑
2中任一项所述的方法,其中所述人类感知参数对应于比语音水平低不止20dB的第一噪声抑制目标,并且其中所述机器感知参数对应于比语音水平低10至15dB的第二噪声抑制目标。4.如权利要求1
‑
3中任一项所述的方法,其中所述人类感知参数对应于舒适噪声,并且其中所述机器感知参数对应于比所述舒适噪声大20至25dB的掩蔽噪声。5.如权利要求1
‑
4中任一项所述的方法,还包括:通过扩音器输出基于扩音器信号的扩音器输出;通过靠近所述扩音器的麦克风捕获捕获的音频信号,所述捕获的音频信号包括回声分量和捕获分量,其中所述回声分量对应于已经由所述扩音器输出的所述扩音器输出,并且其中所述捕获分量对应于除所述扩音器之外的音频源;以及使用所述扩音器信号对所述捕获的音频信号执行回声消除以生成所述音频信号。6.如权利要求1
‑
5中任一项所述的方法,其中所述音频信号包括语音,并且其中与在执行机器感知时使用所述人类感知参数相比,所述机器感知参数在执行机器感知时改进所述语音的机器感知。7.如权利要求1
‑
6中任一项所述的方法,其中所述机器感知参数包括噪声参数;其中,对所述音频信号进行预调节包括根据所述噪声参数向所述音频信号添加噪声以生成所述经预调节的音频信号;并且其中,与所述音频信号相比,所述噪声参数增加所述经预调节的音频信号的噪声场的均匀性。8.如权利要求1
‑
7中任一项所述的方法,其中,所述机器感知参数包括延迟参数和选通参数;其中,对所述音频信号进行预调节包括根据所述延迟参数施加延迟,以及根据所述选通参数施加填充选通以生成所述经预调节的音频信号;并且其中,所述延迟参数在对所述音频信号进行预调节时引入延迟,并且其中,所述选通参数在对所述音频信号进行预调节时引入斜坡进入和斜坡外出。9.如权利要求1
‑
8中任一项所述的方法,其中所述人类感知参数对应于小于
‑
60dB的第一回声量,并且其中所述机器感知参数对应于
‑
40至
‑
20dB的第二回声量。10.一种针对机器感知处理音频的方法,所述方法包括:接收音频信号,其中所述音频信号对应于已经由设备捕获的音频;通过将噪声添加到所述音频信号来对所述音频信号进行预调节以生成经预调节的音
频信号;以及对所述经预调节的音频信号执行机器感知以生成机器感知输出,所述机器感知包括自动语音识别。11.如权利要求10所述的方法,其中,所添加的噪声具有粉色或白色噪声的特性。12.如权利要求10或11所述的方法,其中与所述音频信号的噪声场的均匀性相比,所述经预调节的音频信号的噪声场的均匀性增加。13.一种针对人类感知和针对机器感知处理音频的方法,所述方法包括:接收音频信号,其中所述音频信号对应于已经由设备捕获的音频;通过减少回声残余,针对人类感知对所述音频信号进行预处理以生成经预处理的音频信号;通过减少回声残余,针对机器感知对所述音频信号进行预调节以生成经预调节的音频信号,其中所述经预调节的音频信号的回声残余量高于所述经预处理的音频信号的回声残余量;以及对所述经预调节的音频信号执行机器感知以生成机器感知输出,所述机器感知包括自动语音识别。14.如权利要求13所述的方法,其中针对人类感知对所述音频信号进行预处理包括根据第一回声消除参数进行预处理;并且针对机器感知对所述音频信号进行预调节包括根据第二回声消除参数对所述音频信号进行预处理,其中第二回声消除参数具有比第一回声消除参数的收敛性更小的收敛性。15.如权利要求13或14所述的方法,其中第一回声消除参数具有100至200ms的收敛性,并且第二回声消除参数具有小于50ms的收敛性。16.如权利要求13
‑
15中任一项所述的方法,其中第...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。