语音增强方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：35023706 阅读：22 留言：0更新日期：2022-09-24 22:54

本申请公开了一种语音增强方法、装置、设备、存储介质及程序产品，涉及语音技术处理领域。该方法包括：沿频域维度对待进行语音增强的目标音频进行频带切分，得到至少两个子频带；获取至少两个子频带分别对应的子带能量数据；沿时域维度对至少两个子频带分别对应的子带能量数据进行分析，得到至少两个子频带分别对应的子带能量分布数据；当指定子频带对应的子带能量分布数据符合调整条件的情况下，对指定子频带的子带能量数据进行调整，得到目标增强音频。通过以上方式，能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整，在充分考虑目标音频特性的同时提高了语音增强的质量。本申请可应用于云技术、人工智能、智慧交通等各种场景。慧交通等各种场景。慧交通等各种场景。

全部详细技术资料下载

【技术实现步骤摘要】
语音增强方法、装置、设备、存储介质及程序产品

[0001]本申请实施例涉及语音技术处理领域，特别涉及一种语音增强方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]语音在传输过程中不可避免地会受到周围环境以及通信设备内部噪声的干扰，因此需要通过语音增强技术从带噪音的语音信号中提取尽可能纯净的原始语音，语音增强技术在语音处理、语音识别、语音检测等领域中发挥着重要作用。
[0003]相关技术中，通常采用噪音抑制、回声消除、音量调节等方法对语音信号进行处理，例如：通过深度学习方法对语音信号中的噪声成分进行抑制，输出得到信噪比增强的语音信号。
[0004]通过上述方法得到的语音信号虽然在一定程度上减轻了噪音的干扰，但当接受者在长时间接收语音信号时，可能会对语音信号产生听觉疲劳，影响语音信号的后续处理过程。

技术实现思路

[0005]本申请实施例提供了一种语音增强方法、装置、设备、存储介质及程序产品，能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整，在充分考虑目标音频特性的同时，提高了语音增强的质量。所述技术方案如下。
[0006]一方面，提供了一种语音增强方法，所述方法包括：
[0007]获取目标音频，所述目标音频为待进行语音增强的音频数据；
[0008]沿频域维度对所述目标音频进行频带切分，得到至少两个子频带；
[0009]获取所述至少两个子频带分别对应的子带能量数据，所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法，其特征在于，所述方法包括：获取目标音频，所述目标音频为待进行语音增强的音频数据；沿频域维度对所述目标音频进行频带切分，得到至少两个子频带；获取所述至少两个子频带分别对应的子带能量数据，所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度的频率变化情况；沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析，得到所述至少两个子频带分别对应的子带能量分布数据，所述子带能量分布数据用于指示所述目标音频在所述至少两个子频带上的频率分布情况；在所述至少两个子频带中，存在指定子频带对应的子带能量分布数据符合调整条件的情况下，基于所述指定子频带对应的子带能量分布数据确定调整参数，对所述指定子频带的子带能量数据进行调整，得到目标增强音频。2.根据权利要求1所述的方法，其特征在于，所述沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析，得到所述至少两个子频带分别对应的子带能量分布数据，包括：获取第i帧音频帧中至少两个子频带分别对应的子带能量数据以及第i
‑
1帧音频帧中至少两个子频带分别对应的子带能量分布数据，其中，i为大于1的正整数；基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i
‑
1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重，得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据。3.根据权利要求2所述的方法，其特征在于，所述子带能量分布数据包括子带能量长时分布数据，所述子带能量长时分布数据用于指示相邻两帧音频帧的子带能量数据的变化情况；所述基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i
‑
1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重，得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据，包括：以第一预设权重对所述第i帧音频帧中至少两个子频带分别对应的子带能量数据以及所述第i
‑
1帧音频帧中至少两个子频带分别对应的子带能量长时分布数据进行加权融合，确定所述第i帧音频帧中至少两个子频带分别对应的子带能量长时分布数据。4.根据权利要求3所述的方法，其特征在于，所述在所述至少两个子频带中，存在指定子频带对应的子带能量分布数据符合调整条件的情况下，基于所述指定子频带对应的子带能量分布数据确定调整参数，包括：响应于所述至少两个子频带中存在指定子频带对应的子带能量长时分布数据达到预设听觉阈值，确定所述调整参数，所述预设听觉阈值用于指示所述调整条件。5.根据权利要求2所述的方法，其特征在于，所述子带能量分布数据包括子带能量高位分布数据，所述子带能量高位分布数据用于指示第i帧音频帧的子带能量数据与第i
‑
1帧音频帧的子带能量高位分布数据的数据比较情况；所述基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i
‑
1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重，得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据，包括：
基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i
‑
1帧音频帧中至少两个子频带分别对应的子带能量高位分布数据以及第二预设权重，得到所述第i帧音频帧中至少两个子频带分别对应的子带能量高位分布数据。6.根据权利要求2所述的方法，其特征在于，所述子带能量分布数据包括子带能量低位分布数据，所述子带能量低位分布数据用于指示第i帧音频帧的子带能量数据与第i
‑
1帧音频帧的子带能量低位分布数据的数据比较情况；所述基于所述第i帧音频帧中至少两个子频带...

【专利技术属性】
技术研发人员：梁俊斌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人