语音处理方法、语音处理装置、存储介质及电子设备制造方法及图纸

技术编号:39049110 阅读:26 留言:0更新日期:2023-10-10 12:01
本公开涉及音频处理技术领域,具体涉及语音处理方法及装置、计算机可读存储介质及电子设备。所述方法包括:通过目标编码器对待分离混合语音进行编码,以得到待分离混合语音的编码特征;将编码特征输入到目标主干网络中,基于目标主干网络对编码特征进行多尺度特征提取,以得到待分离混合语音的分离位置掩码估计值,目标主干网络包括至少一个多尺度特征提取模块,每个多尺度特征提取模块包括M

【技术实现步骤摘要】
语音处理方法、语音处理装置、存储介质及电子设备


[0001]本公开涉及语音处理
,具体而言,涉及一种语音处理方法、语音处理装置、计算机可读存储介质及电子设备。

技术介绍

[0002]音频数据中的多声源音频数据是多个声源音频在一个音频文件中加性融合,不同声源数据互相干扰。通过声源分离技术可以将多声源混合音频划分为几段独立的音频,每段音频对应一个声源,便于后续的处理和应用。如可以将会议室录入的多人的对话语音进行分离,得到每个人单独的音频。
[0003]相关技术中主要有传统数学方法和深度学习两种进行多声源分离的方法,随着深度学习技术的不断发展,基于深度学习的方法的多声源分离性能已经远超过传统数学方法。
[0004]但是,相关技术中的基于深度学习的多声源分离方法感受野不足,导致多声源分离的准确性降低。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种语音处理方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征;将所述编码特征输入到目标主干网络中,基于所述目标主干网络对所述编码特征进行多尺度特征提取,以得到所述待分离混合语音的分离位置掩码估计值,其中,所述目标主干网络包括至少一个多尺度特征提取模块,每个所述多尺度特征提取模块包括多尺度卷积子模块,所述多尺度卷积子模块包括M

1个级联的膨胀率不同的膨胀深度可分卷积单元,M为大于1的整数;将所述编码特征和所述分离位置掩码估计值输入到目标解码器中,以得到所述待分离混合语音的语音分离结果。2.根据权利要求1所述的语音处理方法,其特征在于,所述目标编码器包括卷积模块和第一激活函数,所述通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征包括:通过所述目标编码器的卷积模块,对所述待分离混合语音进行特征提取,以得到候选特征矩阵;通过所述第一激活函数对所述候选特征矩阵进行非线性映射,以过滤掉所述候选特征矩阵中的非负参数,得到所述编码特征。3.根据权利要求1所述的语音处理方法,其特征在于,所述目标主干网络包括的每个多尺度特征提取模块之间密集连接。4.据权利要求1至3中任一项所述的语音处理方法,其特征在于,每个所述多尺度特征提取模块还包括输入门,所述输入门用于对所述多尺度特征提取模块的输入特征进行通道数量调整,以使得调整后的输入特征通道数量和所述多尺度特征提取模块中的多尺度卷积子模块的输入通道数量相同。5.根据权利要求4所述的语音处理方法,其特征在于,所述目标主干网络中的每个所述多尺度特征提取模块通过以下方式对所述编码特征进行特征提取:所述多尺度特征提取模块中的所述多尺度卷积子模块根据所述多尺度特征提取模块的输入门的输出特征通道数量,对所述输入门的输出特征在通道维度进行划分,以得到M组分组特征;将所述M组分组特征中的前M

1个分组特征分别对应的输入到M

1个级联的膨胀率不同的膨胀深度可分卷积单元中,以对应的得到每个膨胀深度可分卷积单元的输出特征;合并M

1个膨胀深度可分卷积单元的输出特征和第M组分组特征,以得到所述多尺度卷积子模块的输出特征;根据所述多尺度卷积子模块的输出特征,得到所述多尺度特征提取模块的输出特征。6.根据权利要求5所述的语音处理方法,其特征在于,所述将所述M组分组特征中的前M

1个分组特征分别对应的输入到M

1个级联的膨胀率不同的膨胀深度可分卷积单元中,以对应的得到每个膨胀深度可分卷...

【专利技术属性】
技术研发人员:余君涛
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1