语音增强方法、系统、设备和存储介质技术方案

技术编号：40806768 阅读：14 留言：0更新日期：2024-03-28 19:30

本公开涉及计算机技术领域，公开了一种语音增强方法、系统、设备和存储介质，语音增强方法包括获取音频数据，以及在音频数据中检测到语音数据时，提取语音数据的嵌入向量；在嵌入向量中，查找从目标语音数据中提取到的目标嵌入向量，并基于目标嵌入向量，生成注册嵌入向量；将注册嵌入向量与音频数据的音频特征向量进行相关性计算，以确定对目标语音数据进行增强时所需使用的掩蔽值；依据掩蔽值，对音频数据中的目标语音数据进行增强。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，具体涉及一种语音增强方法、系统、设备和存储介质。

技术介绍

1、在一些场合中，通过语音传感器采集指定说话人的语音时，通常会采集到各种干扰声，比如背景噪声、房间混响、其他说话人的语音等。这些干扰声可能会影响音频质量，导致无法听清指定说话人的说话内容。在此背景下，出现了语音增强技术。所谓语音增强，即是在采集到的音频中，增强指定说话人的语音，消除或减弱其它干扰声(比如背景噪声、非指定说话人的语言信号)。如此，以提高音频质量。

2、目前，在进行语音增强之前，通常需要指定说话人预先提供一段清晰的语音进行注册，以便于基于预先注册的清晰语音对指定说话人的语音进行增强。这种语音增强方法不适用于实时场景。所谓实时场景，可以是在未提前进行语音注册的情况下，仍需进行语音增强的场景。比如，在一些需要对现场采集的音频进行实时播放的场合中，因为无法预先确定具体的说话人，故不能提前进行语音注册，但在实时播放时，为了提高音频质量，依然有语音增强的需求。这是目前的语音增强技术无法实现的。

3、因此，亟需一种可以在实时场景中实现音频增强的方法。

技术实现思路

1、有鉴于此，本公开实施方式提供了一种语音增强方法、语音增强系统、电子设备和计算机可读存储介质，支持实时场景中的音频增强。

2、本公开一方面提供了一种语音增强方法，所述方法包括：

3、获取音频数据，以及在所述音频数据中检测到语音数据时，提取所述语音数据的嵌入向量；

4、在所述嵌入向量中

5、将所述注册嵌入向量与所述音频数据的音频特征向量进行相关性计算，以确定对所述目标说话人的语音数据进行增强时所需使用的掩蔽值；

6、依据所述掩蔽值，对所述音频数据中的所述目标语音数据进行增强。

7、本公开另一方面还提供了语音增强系统，所述系统包括：

8、音频获取模块，用于获取音频数据，以及在所述音频数据中检测到语音数据时，提取所述语音数据的嵌入向量；

9、向量查找模块，用于在所述嵌入向量中，查找从目标语音数据中提取到的目标嵌入向量，并基于所述目标嵌入向量，生成注册嵌入向量；

10、增强计算模块，用于将所述注册嵌入向量与所述音频数据的音频特征向量进行相关性计算，以确定对所述目标语音数据进行增强时所需使用的掩蔽值；

11、增强模块，用于依据所述掩蔽值，对所述音频数据中的所述目标语音数据进行增强。

12、本公开另一方面还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现如上所述的方法。

13、本公开另一方面还提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如上所述的方法。

14、在本申请一些实施例的技术方案中，基于从音频数据的语音数据中提取得到的嵌入向量，可以查找从目标语音数据中提取到的目标嵌入向量，并可以基于目前嵌入向量进一步得到注册嵌入向量，进而可以通过注册嵌入向量和音频特征向量的相关性计算，得到对目标语音数据进行增强时所需使用的掩蔽值。如此，可以在音频数据的获取过程中生成注册嵌入向量，并基于注册嵌入向量实现语音增强，无需预先进行音频注册，达到了实时场景中的音频增强目的。

本文档来自技高网...

【技术保护点】

1.一种语音增强方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述提取所述语音数据的嵌入向量，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述目标嵌入向量，生成注册嵌入向量，包括：

4.如权利要求2所述的方法，其特征在于，所述在所述嵌入向量中，查找从目标语音数据中提取到的目标嵌入向量，包括：

5.如权利要求1所述的方法，其特征在于，所述音频特征向量包括从所述音频数据的复频谱中提取到的多个按频带划分的子音频特征向量；

6.如权利要求5所述的方法，其特征在于，在将所述注册嵌入向量与各个所述子音频特征向量分别进行相关性计算之前，所述方法还包括：

7.如权利要求5所述的方法，其特征在于，所述掩蔽值的计算过程是通过训练好的增强模型来实现的，所述增强模型是基于如下方法训练得到的：

8.一种语音增强系统，其特征在于，所述系统包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任一所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一所述的方法。

...

【技术特征摘要】

1.一种语音增强方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述提取所述语音数据的嵌入向量，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述目标嵌入向量，生成注册嵌入向量，包括：

4.如权利要求2所述的方法，其特征在于，所述在所述嵌入向量中，查找从目标语音数据中提取到的目标嵌入向量，包括：

5.如权利要求1所述的方法，其特征在于，所述音频特征向量包括从所述音频数据的复频谱中提取到的多个按频带划分的子音频特征向量；

6.如权利要求5所述的方法，其特征在于，在将所述注册嵌入向量与各个所述子音频特...

【专利技术属性】
技术研发人员：乐笑怀，夏咸军，肖益剑，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人