使用自适应平滑的对话增强制造技术

技术编号:33524575 阅读:22 留言:0更新日期:2022-05-19 01:34
一种增强音频信号中的对话可懂度的方法,其包括:确定音频内容包含语音内容的语音置信度分数;响应于所述语音置信度分数,确定所述音频内容包含音乐相关内容的音乐置信度分数;及应用所述音频信号的所选择的频带的用户所选择的增益,以获得对话增强音频信号。所述用户所选择的增益通过自适应平滑算法进行平滑,所述平滑算法中的过去帧的影响由平滑因子确定,所述平滑因子响应于所述音乐置信度分数而计算,且针对具有相对较高音乐置信度分数的内容具有相对较高的值,且针对具有相对较低音乐置信度分数的语音内容具有相对较低的值,以便增加过去帧对音乐相关内容的对话增强的影响。增加过去帧对音乐相关内容的对话增强的影响。增加过去帧对音乐相关内容的对话增强的影响。

【技术实现步骤摘要】
【国外来华专利技术】使用自适应平滑的对话增强
[0001]相关申请案的交叉引用
[0002]本申请案主张2020年1月21日申请的第62/963,711号美国临时专利申请案、2019年9月16日申请的第62/900,969号美国临时专利申请案及2019年8月27日申请的第PCT/CN2019/102775号国际专利申请案的优先权,所有这些申请案的全部内容均以引用的方式并入本文中。


[0003]本专利技术涉及包含对话增强的音频处理。明确来说,本专利技术涉及通过平滑经放大的提取对话改进对话增强。

技术介绍

[0004]对话增强是一种用于增强音频信号中的语音/对话以改进可懂度的算法。对话增强系统的一个实例在图1中展示。此处的对话增强系统包含用于检测语音的存在的语音检测器。语音检测器可为基于语音活动检测(VAD)或机器学习的语音分类器。来自语音检测器的输出(ON/OFF)乘以用户选择的增益,且接着输入到对话增强模块。为了避免一些不需要的伪像,增益在被输入到对话增强之前进行平滑。
[0005]期望进一步改进此类对话增强算法的性能。

技术实现思路

[0006]描述增强音频中的对话可懂度的方法、系统及方法的计算机程序产品。
[0007]本专利技术的第一方面涉及一种增强音频信号中的对话可懂度的方法,其包括:通过语音分类器确定音频内容包含语音内容的语音置信度分数;通过音乐分类器确定所述音频内容包含音乐相关内容的音乐置信度分数;响应于所述语音置信度分数,通过对话增强模块应用所述音频信号的所选择的频带的用户所选择的增益,以获得对话增强音频信号,其中所述用户所选择的增益通过自适应平滑算法进行平滑,所述平滑算法中的过去帧的影响由平滑因子确定,所述平滑因子响应于所述音乐置信度分数而进行选择,且针对具有相对较高音乐置信度分数的内容具有相对较高的值,且针对具有相对较低音乐置信度分数的语音内容具有相对较低的值,以便增加过去帧对音乐相关内容的对话增强的影响。
[0008]“音乐相关内容”简单地意在为由于音乐的存在而可预期针对其语音分类可能会更加困难的内容。通过增加过去帧的影响,对话增强对所述语音分类器中的“假阳性”变得不那么敏感。
[0009]所述平滑因子与所述自适应平滑中考虑的帧数有关。因此,针对较大的平滑因子,考虑更多的帧,因此使对话增强的应用更加渐进(较慢),且因此避免“假阳性”引起的波动性提升。针对较小的平滑因子,考虑更少的帧,因此允许对话增强的更快应用。平滑因子与平滑函数之间的关系可为直接的(例如,平滑因子定义要考虑的帧数),或间接的(例如,平滑因子定义过去帧的相对权重的下降斜率)。
[0010]所述自适应平滑因子使基于内容调整平滑因子成为可能。针对其中存在音乐(高音乐置信度分数)的内容,可将所述平滑因子设置得相对较大(例如,约500ms或更大),而针对不存在音乐(低音乐置信度分数)的内容,可将所述平滑因子设置得相对较小(例如,约100ms或更小)。
[0011]可基于额外参数进一步调整所述平滑因子。例如,低信噪比(SNR)可能导致更大的平滑因子,且所述语音分类器中的大延时可能导致更大的平滑因子。
[0012]根据第二方面,语音及音乐分类器接收音频信号,所述音频信号包含音频内容。所述语音分类器确定语音置信度,且所述音乐分类器确定音乐置信度。响应于所述语音及分类器的输出,自适应平滑算法计算音乐相关内容的对话平滑因子的较高值及纯语音内容的所述对话平滑因子的较低值。所述自适应平滑算法基于所述音频内容的SNR调整所述对话平滑因子。较低SNR对应于所述对话平滑因子的较大增加。瞬时检测器可用于实时测量语音分类器的延时,所述对话平滑因子应随所述延时的增加而线性增加。对话增强器基于经调整的对话平滑因子增强所述音频内容,以产生经增强的音频。
附图说明
[0013]将参考附图更详细地描述本专利技术,所述附图展示本专利技术的当前优选实施例。
[0014]图1是说明常规对话增强系统的框图。
[0015]图2是说明根据本专利技术的实施例的实施动态平滑的实例对话增强系统的框图。
[0016]图3是根据本专利技术的实施例的对话增强系统的更详细框图。
[0017]图4是说明根据本专利技术的实施例的各种因子可如何影响平滑因子的流程图。
[0018]图5说明使用VAD或瞬时检测器测量语音分类器的延时。
[0019]图6是说明使用动态平滑的对话增强的实例过程的流程图。
[0020]图7是根据实施例的用于实施参考图1到6所描述的特征及过程的移动装置架构。
具体实施方式
[0021]常规对话增强算法(例如,如图1中所说明)通常具有两个主要缺点:
[0022]1.分类器的准确率不是100%。语音分类器存在一些典型的困难情况,例如,伴随音乐的语音/歌声及低SNR内容。在一些情况中,对话提取器将会把音频内容错误地识别为对话,而实际上所述音频内容不是对话。被错误地分类为对话的帧有时被称为“假阳性”。因此,当存在音乐且当SNR较低时,对话提升会出现波动。
[0023]2.语音检测器的延时取决于内容,且延时可能从低于100ms到高于500ms变化。结果,单词的初始发音(开头)可能会被遗漏,从而导致突然的对话提升。
[0024]为了克服这些缺点,有时会引入前瞻来减少语音分类器的假阳性及延时。例如,编码侧上2000ms延时可能是可接受的。然而,在移动重放侧,延时是非常敏感且关键的,且前瞻是不允许的。因此,在常规的语音分类器中,准确度及延时问题更加严重。
[0025]此外,可通过使用常规平滑算法消除或至少减轻上述伪像,如图1中所展示。然而,固定的平滑因子将无法满足所有用例。例如,如果由于准确性或延时问题(这在音乐内容上的语音中非常常见)而遗漏了单词的前300ms,那么将需要500ms的平滑因子才能使经提升的声音自然且舒适。然而,此类大的平滑因子不适用于正常的语音内容,其准确度较高,且
延时通常只有100ms。
[0026]本说明书中所公开的技术涉及对话增强,其使对话不仅清晰而且舒适,且具有更少的伪像。图2展示根据本专利技术的实施例的实施动态平滑的实例对话增强系统200。如图2中所展示,本专利技术包含自适应平滑算法,其用于自动为不同内容及背景选择最合适的平滑因子,以减少对话增强的伪像。
[0027]以下是如何调整平滑因子的一些实例:
[0028]‑
利用历史及当前的音乐置信度分数
[0029]如果音乐在最后几帧或当前帧中占主导地位,那么平滑因子应趋向于较大,例如500ms或更大,以滤除任何假阳性。
[0030]‑
减少纯语音内容的平滑度
[0031]如果内容是纯语音,那么平滑因子可较小,例如,50ms到100ms,以使对话提升更明显。
[0032]‑
利用SNR
[0033]SNR可经测量以帮助指导平滑,对于低SNR内容,假阳性/阴性趋向于高,因此,平滑因子应更保守而较大,例如,500ms。...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种增强音频信号中的对话可懂度的方法,其包括,针对所述音频信号的每一帧:通过语音分类器确定所述帧包含语音内容的语音置信度分数;通过音乐分类器确定所述帧包含音乐相关内容的音乐置信度分数;响应于所述语音置信度分数,通过对话增强模块应用所述音频信号的所选择的频带的用户所选择的增益,以获得对话增强音频信号,其中所述用户所选择的增益通过自适应平滑算法进行平滑,所述平滑算法中的过去帧的影响由平滑因子确定,所述平滑因子响应于所述音乐置信度分数而进行选择,且针对具有相对较高音乐置信度分数的内容具有相对较高的值,且针对具有相对较低音乐置信度分数的语音内容具有相对较低的值,以便增加过去帧对音乐相关内容的对话增强的影响。2.根据权利要求1所述的方法,其中当所述音乐置信度分数高于给定阈值时,选择第一较高平滑因子,且当所述音乐置信度分数低于所述给定阈值时,选择第二较低平滑因子。3.根据权利要求1或2所述的方法,其中所述平滑因子表达为时间段,并涉及所述平滑算法的滤波窗口。4.根据权利要求3所述的方法,其中所述第一较高平滑因子为500毫秒(ms)。5.根据权利要求3或权利要求4所述的方法,其中所述第二较低平滑因子在50与100毫秒(ms)之间。6.根据前述权利要求中任一权利要求所述的方法,其进一步包括:测量所述音频信号中的信噪比SNR,及基于所述经测量的SNR调整所述平滑因子,其中较低的SNR值对应于较大的平滑因子。7.根据前述权利要求中任一权利要求所述的方法,其进一步包括:测量所述语音分类器中的延时,及基于所述经测量...

【专利技术属性】
技术研发人员:余雪梅
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1