使用自适应平滑的对话增强制造技术

技术编号：33524575 阅读：22 留言：0更新日期：2022-05-19 01:34

一种增强音频信号中的对话可懂度的方法，其包括：确定音频内容包含语音内容的语音置信度分数；响应于所述语音置信度分数，确定所述音频内容包含音乐相关内容的音乐置信度分数；及应用所述音频信号的所选择的频带的用户所选择的增益，以获得对话增强音频信号。所述用户所选择的增益通过自适应平滑算法进行平滑，所述平滑算法中的过去帧的影响由平滑因子确定，所述平滑因子响应于所述音乐置信度分数而计算，且针对具有相对较高音乐置信度分数的内容具有相对较高的值，且针对具有相对较低音乐置信度分数的语音内容具有相对较低的值，以便增加过去帧对音乐相关内容的对话增强的影响。增加过去帧对音乐相关内容的对话增强的影响。增加过去帧对音乐相关内容的对话增强的影响。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用自适应平滑的对话增强
[0001]相关申请案的交叉引用
[0002]本申请案主张2020年1月21日申请的第62/963,711号美国临时专利申请案、2019年9月16日申请的第62/900,969号美国临时专利申请案及2019年8月27日申请的第PCT/CN2019/102775号国际专利申请案的优先权，所有这些申请案的全部内容均以引用的方式并入本文中。

[0003]本专利技术涉及包含对话增强的音频处理。明确来说，本专利技术涉及通过平滑经放大的提取对话改进对话增强。

技术介绍

[0004]对话增强是一种用于增强音频信号中的语音/对话以改进可懂度的算法。对话增强系统的一个实例在图1中展示。此处的对话增强系统包含用于检测语音的存在的语音检测器。语音检测器可为基于语音活动检测(VAD)或机器学习的语音分类器。来自语音检测器的输出(ON/OFF)乘以用户选择的增益，且接着输入到对话增强模块。为了避免一些不需要的伪像，增益在被输入到对话增强之前进行平滑。
[0005]期望进一步改进此类对话增强算法的性能。

技术实现思路

[0006]描述增强音频中的对话可懂度的方法、系统及方法的计算机程序产品。
[0007]本专利技术的第一方面涉及一种增强音频信号中的对话可懂度的方法，其包括：通过语音分类器确定音频内容包含语音内容的语音置信度分数；通过音乐分类器确定所述音频内容包含音乐相关内容的音乐置信度分数；响应于所述语音置信度分数，通过对话增强模块应用所述音频信号的所选择的频带的用户所选

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种增强音频信号中的对话可懂度的方法，其包括，针对所述音频信号的每一帧：通过语音分类器确定所述帧包含语音内容的语音置信度分数；通过音乐分类器确定所述帧包含音乐相关内容的音乐置信度分数；响应于所述语音置信度分数，通过对话增强模块应用所述音频信号的所选择的频带的用户所选择的增益，以获得对话增强音频信号，其中所述用户所选择的增益通过自适应平滑算法进行平滑，所述平滑算法中的过去帧的影响由平滑因子确定，所述平滑因子响应于所述音乐置信度分数而进行选择，且针对具有相对较高音乐置信度分数的内容具有相对较高的值，且针对具有相对较低音乐置信度分数的语音内容具有相对较低的值，以便增加过去帧对音乐相关内容的对话增强的影响。2.根据权利要求1所述的方法，其中当所述音乐置信度分数高于给定阈值时，选择第一较高平滑因子，且当所述音乐置信度分数低于所述给定阈值时，选择第二较低平滑因子。3.根据权利要求1或2所述的方法，其中所述平滑因子表达为时间段，并涉及所述平滑算法的滤波窗口。4.根据权利要求3所述的方法，其中所述第一较高平滑因子为500毫秒(ms)。5.根据权利要求3或权利要求4所述的方法，其中所述第二较低平滑因子在50与100毫秒(ms)之间。6.根据前述权利要求中任一权利要求所述的方法，其进一步包括：测量所述音频信号中的信噪比SNR，及基于所述经测量的SNR调整所述平滑因子，其中较低的SNR值对应于较大的平滑因子。7.根据前述权利要求中任一权利要求所述的方法，其进一步包括：测量所述语音分类器中的延时，及基于所述经测量...

【专利技术属性】
技术研发人员：余雪梅，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人