语音分离装置及方法、存储介质、计算机设备制造方法及图纸

技术编号：34144756 阅读：19 留言：0更新日期：2022-07-14 18:40

一种语音分离装置及方法、存储介质、计算机设备，其中，所述语音分离装置包括：编码器，用于对输入语音信号进行编码操作，得到所述输入语音信号的复数特征，其中，所述复数特征包括幅度特征和相位特征，所述输入语音信号中包括一个或多个发音对象的语音信号；分离网络，用于执行复数运算，以从所述复数特征中分离出各个发音对象关联的目标特征；译码器，用于对各个发音对象关联的目标特征进行逆编码操作，以得到各个发音对象的语音信号。由此，能够提高语音分离方案的准确性。高语音分离方案的准确性。高语音分离方案的准确性。

Speech separation device and method, storage medium, computer equipment

全部详细技术资料下载

【技术实现步骤摘要】
语音分离装置及方法、存储介质、计算机设备

[0001]本专利技术涉及语音信号处理领域，具体地涉及一种语音分离装置及方法、存储介质、计算机设备。

技术介绍

[0002]在进行语音通信时，采集的音频信号中除了主说话人之外，还有其他人说话声的干扰和噪音干扰。当前语音识别技术已经可以以较高精度识别一个人所讲的话，但是当采集的音频信号中包含两个或两个以上的说话人、或者存在较大的噪音干扰时，语音识别率就会极大的降低，这一问题被称为鸡尾酒会问题(cocktail party problem)。通常我们会通过语音分离技术来解决鸡尾酒问题，语音分离的目标是把目标语音(比如来源于目标说话人的语音)从采集的音频信号中分离出来，以排除其他说话人或者噪音干扰的影响。
[0003]传统的语音分离方法例如通过独立成分分析(Independent Component Analysis，简称ICA)、非负矩阵分解(Non
‑
negative Matrix Factorization，简称NMF)等技术实现的语音分离方法都不能得到很好的性能。近年来，随着神经网络的流行，出现了利用神经网络进行语音分离的尝试，实验证明神经网络比其他替代方案具有更好的效果。
[0004]然而，专利技术人经过研究发现，现有的语音分离方案的准确性仍无法满足要求。

技术实现思路

[0005]本专利技术解决的技术问题是如何需要提高语音分离方案的准确性。
[0006]为解决上述技术问题，本专利技术实施例提供一种语音分离装置，包...

【技术保护点】

【技术特征摘要】
1.一种语音分离装置，其特征在于，包括：编码器，用于对输入语音信号进行编码操作，得到所述输入语音信号的复数特征，其中，所述复数特征包括幅度特征和相位特征，所述输入语音信号中包括一个或多个发音对象的语音信号；分离网络，用于执行复数运算，以从所述复数特征中分离出各个发音对象关联的目标特征；译码器，用于对各个发音对象关联的目标特征进行逆编码操作，以得到各个发音对象的语音信号。2.根据权利要求1所述的语音分离装置，其特征在于，所述分离网络包括：第一全连接层，用于对所述复数特征进行分类，得到第一中间特征；双向卷积网络，用于根据所述第一中间特征得到卷积结果，所述卷积结果包括第一关联特征和第二关联特征，所述第一关联特征表示第一时间的输入语音信号与所述第一时间之前的输入语音信号之间的关联特征，所述第二关联特征表示第一时间的输入语音信号与所述第一时间之后的输入语音信号之间的关联特征；循环网络，用于根据所述卷积结果得到循环结果，所述循环结果包括第二时间的输入语音信号与所述第二时间之前的输入语音信号的之间的关联特征，所述第二时间晚于第一时间；第二全连接层，用于对所述循环结果进行分类，得到所述各个发音对象的掩码；乘法器，用于计算所述复数特征与所述各个发音对象的掩码之间的乘积，得到所述各个发音对象关联的目标特征。3.根据权利要求2所述的语音分离装置，其特征在于，所述双向卷积网络包括多个基本模块，所述多个基本模块串联连接，每一基本模块包括：第三全连接层，用于对所述基本模块的输入信号进行分类，得到第二中间特征；多级卷积层，用于对所述第二中间特征进行多级卷积运算，得到目标卷积结果；第四全连接层，用于对所述目标卷积结果进行分类，得到所述基本模块的输出信号。4.根据权利要求3所述的语音分离装置，其特征在于，所述多级卷积层包括第一卷积层和多级第二卷积层：所述第一卷积层，用于对所述第二...

【专利技术属性】
技术研发人员：谭飞鸿，熊学泉，
申请(专利权)人：广州思信电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人