语音分离装置及方法、存储介质、计算机设备制造方法及图纸

技术编号:34144756 阅读:19 留言:0更新日期:2022-07-14 18:40
一种语音分离装置及方法、存储介质、计算机设备,其中,所述语音分离装置包括:编码器,用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;分离网络,用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征;译码器,用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。由此,能够提高语音分离方案的准确性。高语音分离方案的准确性。高语音分离方案的准确性。

Speech separation device and method, storage medium, computer equipment

【技术实现步骤摘要】
语音分离装置及方法、存储介质、计算机设备


[0001]本专利技术涉及语音信号处理领域,具体地涉及一种语音分离装置及方法、存储介质、计算机设备。

技术介绍

[0002]在进行语音通信时,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当采集的音频信号中包含两个或两个以上的说话人、或者存在较大的噪音干扰时,语音识别率就会极大的降低,这一问题被称为鸡尾酒会问题(cocktail party problem)。通常我们会通过语音分离技术来解决鸡尾酒问题,语音分离的目标是把目标语音(比如来源于目标说话人的语音)从采集的音频信号中分离出来,以排除其他说话人或者噪音干扰的影响。
[0003]传统的语音分离方法例如通过独立成分分析(Independent Component Analysis,简称ICA)、非负矩阵分解(Non

negative Matrix Factorization,简称NMF)等技术实现的语音分离方法都不能得到很好的性能。近年来,随着神经网络的流行,出现了利用神经网络进行语音分离的尝试,实验证明神经网络比其他替代方案具有更好的效果。
[0004]然而,专利技术人经过研究发现,现有的语音分离方案的准确性仍无法满足要求。

技术实现思路

[0005]本专利技术解决的技术问题是如何需要提高语音分离方案的准确性。
[0006]为解决上述技术问题,本专利技术实施例提供一种语音分离装置,包括:编码器,用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;分离网络,用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征;译码器,用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。
[0007]可选的,所述分离网络包括:第一全连接层,用于对所述复数特征进行分类,得到第一中间特征;双向卷积网络,用于根据所述第一中间特征得到卷积结果,所述卷积结果包括第一关联特征和第二关联特征,所述第一关联特征表示第一时间的输入语音信号与所述第一时间之前的输入语音信号之间的关联特征,所述第二关联特征表示第一时间的输入语音信号与所述第一时间之后的输入语音信号之间的关联特征;循环网络,用于根据所述第一关联特征和第二关联特征得到循环结果,所述循环结果包括第二时间的输入语音信号与所述第二时间之前的输入语音信号的之间的关联特征,所述第二时间晚于第一时间;第二全连接层,用于对所述第三关联特征进行分类,得到所述各个发音对象的掩码;乘法器,用于计算所述复数特征与所述各个发音对象的掩码之间的乘积,得到所述各个发音对象关联的目标特征。
[0008]可选的,所述双向卷积网络包括多个基本模块,所述多个基本模块串联连接,每一
基本模块包括:第三全连接层,用于对所述基本模块的输入信号进行分类,得到第二中间特征;多级卷积层,用于对所述第二中间特征进行多级卷积运算,得到目标卷积结果;第四全连接层,用于对所述目标卷积结果进行分类,得到所述基本模块的输出信号。
[0009]可选的,所述多级卷积层包括第一卷积层和多级第二卷积层:所述第一卷积层,用于对所述第二中间特征进行卷积运算,得到第一卷积结果;当前卷积层,用于对输入的当前输入特征执行降速卷积运算,得到中间卷积特征,对所述中间卷积特征执行升速处理,得到所述当前卷积层的输出特征;其中,所述当前卷积层为任一级所述第二卷积层,除第一级所述第二卷积层之外各个第二卷积层的输入特征包括所述当前卷积层的上一级卷积层的输出特征,第一级所述第二卷积层的输入特征为所述第一卷积结果。
[0010]可选的,通过升速卷积运算对所述中间卷积特征执行升速处理。
[0011]可选的,所述循环网络包括长短期记忆网络或门循环单元。
[0012]可选的,所述第一全连接层具有激励函数cPReLU,所述激励函数cPReLU用于执行以下公式的计算:其中,x
r
为所述复数特征的实部,x
i
为所述复数特征的虚部,w
r
为x
r
的权值,w
i
为x
i
的权值。
[0013]本专利技术实施例还提供一种语音分离方法,包括:对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;执行复数运算,以所述复数特征中分离出各个发音对象关联的目标特征;对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。
[0014]本专利技术实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0015]本专利技术实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0016]与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:
[0017]本专利技术实施例提供一种语音分离装置,包括:编码器,用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;分离网络,用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征;译码器,用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。在本专利技术实施例的语音分离装置中,编码器提取输入语音信号的复数特征,该复数特征中包含输入语音信号中的幅度信息和相位信息,分离网络和译码器中都采用复数运算,能够在深度学习中保留更多的信息,由此提高了语音分离的准确性。如果将语音分离装置应用在语音通信系统中,能够有效提高语音通信系统的性能。
[0018]进一步,相较于现有的Conv

TasNet,本专利技术实施例提供的语音分离装置具有以下优势:优势1,因为分离网络同时采用CNN与RNN,且各个卷积层均采用复数卷积运算,在延迟较小的情况下可以得到满意的性能,能够支持实时的应用;优势2,同时采用CNN与RNN,且加入了多级降速处理,实现时要求的资源较小,可以适用于资源和功耗有限的应用场合。
附图说明
[0019]图1为本专利技术实施例的一种语音分离装置的结构示意图;
[0020]图2为图1中编码器的一种具体实施方式的示意图;
[0021]图3为图1中译码器的一种具体实施方式的示意图;
[0022]图4为图1中分离网络的一种具体实施方式的示意图;
[0023]图5为图4中双向卷积网络的一种具体实施方式的示意图;
[0024]图6为图5中单个基本模块的一种具体实施方式的示意图;
[0025]图7为本专利技术实施例的一种MrCNN的结构示意图;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音分离装置,其特征在于,包括:编码器,用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;分离网络,用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征;译码器,用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。2.根据权利要求1所述的语音分离装置,其特征在于,所述分离网络包括:第一全连接层,用于对所述复数特征进行分类,得到第一中间特征;双向卷积网络,用于根据所述第一中间特征得到卷积结果,所述卷积结果包括第一关联特征和第二关联特征,所述第一关联特征表示第一时间的输入语音信号与所述第一时间之前的输入语音信号之间的关联特征,所述第二关联特征表示第一时间的输入语音信号与所述第一时间之后的输入语音信号之间的关联特征;循环网络,用于根据所述卷积结果得到循环结果,所述循环结果包括第二时间的输入语音信号与所述第二时间之前的输入语音信号的之间的关联特征,所述第二时间晚于第一时间;第二全连接层,用于对所述循环结果进行分类,得到所述各个发音对象的掩码;乘法器,用于计算所述复数特征与所述各个发音对象的掩码之间的乘积,得到所述各个发音对象关联的目标特征。3.根据权利要求2所述的语音分离装置,其特征在于,所述双向卷积网络包括多个基本模块,所述多个基本模块串联连接,每一基本模块包括:第三全连接层,用于对所述基本模块的输入信号进行分类,得到第二中间特征;多级卷积层,用于对所述第二中间特征进行多级卷积运算,得到目标卷积结果;第四全连接层,用于对所述目标卷积结果进行分类,得到所述基本模块的输出信号。4.根据权利要求3所述的语音分离装置,其特征在于,所述多级卷积层包括第一卷积层和多级第二卷积层:所述第一卷积层,用于对所述第二...

【专利技术属性】
技术研发人员:谭飞鸿熊学泉
申请(专利权)人:广州思信电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1