音频处理方法技术

技术编号:39804965 阅读:18 留言:0更新日期:2023-12-22 02:38
本申请公开一种音频处理方法,包括:对第一音频执行第一语音增强处理,生成增强音频,其中所述第一音频中具有目标语音和背景噪音,所述背景噪音包括人声噪音;获取增强音频的能量信息;根据所述增强音频的能量信息,对所述增强音频叠加加性噪声,以获取加噪音频;对所述加噪音频执行第二语音增强处理,生成增强了所述目标语音的目标音频

【技术实现步骤摘要】
音频处理方法、电子设备及存储介质


[0001]本申请涉及音频处理
,具体而言,涉及一种音频处理

音频播放及语音识别方法

电子设备及存储介质


技术介绍

[0002]当前,提出了基于信号处理的语音增强
(Speech Enhancement)
方法

在基于信号处理的语音增强方法中,通常假设噪声是平稳的或慢变的,适用于仅存在平稳底噪的场景,但是难以适用于更加普遍的非平稳噪声场景

[0003]当前,还提出了基于模型的语音增强方法

基于模型的语音增强方法在低信噪比

非平稳的条件下相对信号处理算法更有优势,能处理大多数平稳和非平稳的普通噪声

[0004]然而,当音频信号中存在人声干扰时,例如他人在周围交谈时,由于人声干扰和目标语音同属于语音信号,常规的语音识别工具难以区分人声干扰和目标语音,造成目标语音残留人声干扰噪音,严重影响听觉体验

[0005]本
技术介绍
描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认


技术实现思路

[0006]根据本申请的示例实施例,提供了一种音频处理方法

电子设备及存储介质

[0007]在本申请的第一方面中,提供一种音频处理方法,所述方法包括:
[0008]对第一音频执行第一语音增强处理,生成增强音频,其中所述第一音频中具有目标语音和背景噪音,所述背景噪音包括人声噪音;
[0009]获取增强音频的能量信息;
[0010]根据所述增强音频的能量信息,对所述增强音频叠加加性噪声,以获取加噪音频;
[0011]对所述加噪音频执行第二语音增强处理,生成增强了所述目标语音的目标音频

[0012]在本申请实施例中,所述获取增强音频的能量信息,包括:
[0013]根据预定采样频率对所述增强音频进行采样,以获取所述预定采样频率对应的每个采样点的能量幅值;
[0014]根据所述能量幅值以及所述采样点的个数,确定所述增强音频的音频平均能量,作为所述增强音频的能量信息

[0015]在本申请实施例中,根据所述增强音频的能量信息,对所述增强音频叠加加性噪声,包括:
[0016]根据所述音频平均能量,确定叠加噪声比例,其中所述叠加噪声比例与所述音频平均能量正相关;
[0017]根据确定的所述叠加噪声比例,对所述增强音频叠加所述加性噪声

[0018]在本申请实施例中,所述根据所述音频平均能量,确定叠加噪声比例,包括:
[0019]判断所述音频平均能量是否大于预定阈值;
[0020]若所述音频平均能量大于预定阈值,则在第一预定比例区间内确定所述叠加噪声比例;
[0021]若所述音频平均能量不大于预定阈值,则在第二预定比例区间内确定所述叠加噪声比例;其中,第一预定比例区间值大于第二预定比例区间值

[0022]在本申请实施例中,所述根据所述音频平均能量确定叠加噪声比例,包括:
[0023]预先建立多个能量区间与多个噪声比例的映射关系;
[0024]在所述多个能量区间中,确定所述音频平均能量所属的目标能量区间;
[0025]根据所述能量区间与所述噪声比例的映射关系,确定所述目标能量区间对应的噪声比例,并将确定的噪声比例确定为所述叠加噪声比例

[0026]在本申请实施例中,根据所述增强音频的能量信息,对所述增强音频叠加加性噪声,还包括:
[0027]根据所述增强音频的频率,确定所述加性噪声的频率;
[0028]根据叠加噪声比例确定所述加性噪声的幅值,其中,所述加性噪声的频率与所述增强音频的频率一致

[0029]在本申请实施例中,所述对第一音频执行第一语音增强处理,生成增强音频,包括:
[0030]将所述第一音频输入预先训练完成的语音增强神经网络模型,以输出所述增强音频;所述对所述加噪音频执行第二语音增强处理,生成增强了所述目标语音的目标音频,包括:
[0031]将所述加噪音频输入所述预先训练完成的语音增强神经网络模型,以输出所述目标音频

[0032]在本申请实施例中,所述加性噪声为白噪音

[0033]在本申请实施例中,所述白噪音为高斯白噪音

[0034]在本申请的第二方面中,提供一种音频处理方法,包括:
[0035]利用第一方面所述的音频处理方法获取目标音频;
[0036]播放所述目标音频,和
/
或将所述目标音频中增强的目标语音转换成对应的文字

[0037]在本申请的第四方面中,提供了一种音频处理装置,应用于播放设备,所述装置包括第一增强模块

处理模块以及第二增强模块;其中:
[0038]第一增强模块,用于对第一音频执行第一语音增强处理,生成增强音频,其中所述第一音频中具有目标语音和背景噪音,所述背景噪音包括人声噪音;
[0039]获取模块,用于获取增强音频的能量信息;
[0040]处理模块,用于根据所述增强音频的能量信息,对所述增强音频叠加加性噪声,以获取加噪音频;
[0041]第二增强模块,用于对所述加噪音频执行第二语音增强处理,生成增强了所述目标语音的目标音频

[0042]在本申请的第五方面中,提供了一种电子设备,包括:
[0043]至少一个处理器;
[0044]至少一个存储计算机可执行指令的存储器,
[0045]其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一
个处理器执行如第一至第三方面方法

[0046]在本申请的第七方面中,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行第一至第三方面方法

[0047]在本申请实施例中,在音频处理方法中,通过对第一音频执行第一语音增强处理,生成增强音频,其中所述第一音频中具有目标语音和背景噪音,所述背景噪音包括人声噪音;获取增强音频的能量信息;根据所述增强音频的能量信息,对所述增强音频叠加加性噪声,以获取加噪音频;对所述加噪音频执行第二语音增强处理,生成增强了所述目标语音的目标音频;由此本申请实施例通过增加声学掩蔽处理并进行第二语音增强处理,能进一步处理音频内容的残留噪声,特别是残留人声干扰,提高了音频内容中残留人声干扰的去噪效果

[0048]本申请的进一步实施例可以应用于音频播放,从而提高了长音频内容的用户试听体验

[0049]本申请另外的实施例可以应用于语音识别,能够大幅提升语音识别效果

[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种音频处理方法,其特征在于,所述方法包括:对第一音频执行第一语音增强处理,生成增强音频,其中所述第一音频包括目标语音和背景噪音,所述背景噪音包括人声噪音;获取所述增强音频的能量信息;根据所述增强音频的能量信息,对所述增强音频叠加加性噪声以获取加噪音频;对所述加噪音频执行第二语音增强处理,生成目标音频
。2.
根据权利要求1所述的音频处理方法,其特征在于,所述获取增强音频的能量信息,包括:根据预定采样频率对所述增强音频进行采样,以获取所述预定采样频率对应的每个采样点的能量幅值;根据所述能量幅值以及所述采样点的个数,确定所述增强音频的音频平均能量,作为所述增强音频的能量信息
。3.
根据权利要求2所述的音频处理方法,其特征在于,根据所述增强音频的能量信息,对所述增强音频叠加加性噪声,包括:根据所述音频平均能量确定叠加噪声比例,其中所述叠加噪声比例与所述音频平均能量正相关;根据确定的所述叠加噪声比例,对所述增强音频叠加所述加性噪声
。4.
根据权利要求3所述的音频处理方法,其特征在于,所述根据所述音频平均能量确定叠加噪声比例,包括:判断所述音频平均能量是否大于预定阈值;若所述音频平均能量大于预定阈值,则在第一预定比例区间内确定所述叠加噪声比例;若所述音频平均能量不大于预定阈值,则在第二预定比例区间内确定所述叠加噪声比例;其中,第一预定比例区间值大于第二预定比例区间值
。5.
根据权利要求3所述的音频处理方法,其特征在于,所述根据所述音频平均能量确定叠加噪声比例,包括:预先建立多个能量区间与多个噪声比例的映射关系;在所述多个能量区间中,确定所述音频平均能量所属的目标能量区...

【专利技术属性】
技术研发人员:何礼
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1