【技术实现步骤摘要】
一种多人的语音分离方法、装置、电子设备和存储介质
本申请涉及人工智能
,尤其涉及机器学习
,提供了一种多人的语音分离方法、装置、电子设备和存储介质。
技术介绍
鸡尾酒会效应是人脑听觉具有的可以集中注意力“调入(Tunein)”单个目标声音而“调出”其他竞争声音的能力的现象。尽管人脑听觉如何解决鸡尾酒会问题内部机理仍然未知,但是由于深度学习技术的飞速发展,用于说话人的识别和验证任务的深度学习模型也在快速发展。然而,它们通常与上述鸡尾酒会问题或语音分离任务无关。并且,相关技术中的说话人的识别和验证方法通常需要复杂的前处理流程,包括语音活动检测(SAD),分段和聚类模块,以将短片段分组以对应于一个说话人的身份等。在严重干扰的情况下,说话人语音分离准确性也较低。
技术实现思路
本申请实施例提供一种多人的语音分离方法、装置、电子设备和存储介质,用以提高说话人语音分离的准确性和语音分离效率。本申请实施例提供的一种多人的语音分离方法,包括:获取待分离的混合波形信号,所述混合波形信号包含多人的语音;对 ...
【技术保护点】
1.一种多人的语音分离方法,其特征在于,该方法包括:/n获取待分离的混合波形信号,所述混合波形信号包含多人的语音;/n对所述混合波形信号进行特征提取,获得所述混合波形信号的编码特征;/n通过对所述编码特征进行特征提取,从所述编码特征中分离出每个人的语音特征;/n基于每个人的语音特征以及所述编码特征之间的关系,对每个人的语音特征进行调整,并对调整后的语音特征进行信号重建,获得每个人的重建语音信号。/n
【技术特征摘要】
1.一种多人的语音分离方法,其特征在于,该方法包括:
获取待分离的混合波形信号,所述混合波形信号包含多人的语音;
对所述混合波形信号进行特征提取,获得所述混合波形信号的编码特征;
通过对所述编码特征进行特征提取,从所述编码特征中分离出每个人的语音特征;
基于每个人的语音特征以及所述编码特征之间的关系,对每个人的语音特征进行调整,并对调整后的语音特征进行信号重建,获得每个人的重建语音信号。
2.如权利要求1所述的方法,其特征在于,
将所述混合波形信号输入已训练的语音分离模型,基于所述已训练的语音分离模型对所述混合波形信号进行特征提取,获得所述编码特征;
基于所述已训练的语音分离模型,对所述编码特征进行特征提取,获得每个人的语音特征;
基于所述已训练的语音分离模型,根据每个人的语音特征以及所述编码特征之间的关系,对每个人的语音特征进行调整,并对调整后的语音特征进行信号重建,获得所述已训练的语音分离模型输出的每个人的重建语音信号;
其中,所述已训练的语音分离模型是根据训练样本数据集训练得到的,所述训练样本数据集中的训练样本包括多人的多条语音样本。
3.如权利要求2所述的方法,其特征在于,所述已训练的语音分离模型包括通用子网络;所述通用子网络包括编码器以及由B个全局关注局部循环单元组成的堆栈,B为正整数;
所述基于所述已训练的语音分离模型,对所述编码特征进行特征提取,获得每个人的语音特征,具体包括:
将所述混合波形信号经由所述编码器转化为二维时间序列;
将所述二维时间序列分割为S段局部序列,并将分割得到的S段局部序列打包形成三维输入张量,其中每相邻两个局部序列之间存在部分重叠,S为正整数;
将所述三维输入张量输入由B个全局关注局部循环单元组成的堆栈,进行B次特征提取,获得由最后一个全局关注局部循环单元输出的所述编码特征,其中每相邻两个全局关注局部循环单元中,前一个全局关注局部循环单元的输出为后一个全局关注局部循环单元的输入,且第一个全局关注局部循环单元的输入为所述三维输入张量,每个全局关注局部循环单元的输入特征和输出特征的形状相同。
4.如权利要求3所述的方法,其特征在于,所述全局关注局部循环单元包括局部循环层和全局关注层;
所述局部循环层用于对接收到的输入特征中的每段局部序列的段内短期依赖性进行建模,输出中间张量L;
所述全局关注层用于基于多头自我注意力机制,对所述全局关注局部循环单元的中间张量G中的每段局部序列进行段间处理;将基于多头自我注意力机制处理得到的张量进行线性映射后拼接得到三维张量,作为所述全局关注局部循环单元的输出特征,其中所述中间张量G是对所述中间张量L进行线性映射和层归一化处理后得到的张量与位置编码张量的和。
5.如权利要求3所述的方法,其特征在于,所述已训练的语音分离模型还包括说话人知识子网络;所述说话人知识子网络包括由B1个全局关注局部循环单元组成的堆栈和嵌入层,B1为正整数;
所述基于所述已训练的语音分离模型,对所述编码特征进行特征提取,获得每个人的语音特征,具体包括:
将所述编码特征输入由B1个全局关注局部循环单元组成的堆栈,进行B1次特征提取,其中每相邻两个全局关注局部循环单元中,前一个全局关注局部循环单元的输出为后一个全局关注局部循环单元的输入,且第一个全局关注局部循环单元的输入为所述编码特征,每个全局关注局部循环单元的输入特征和输出特征的形状相同;
将最后一个全局关注局部循环单元的输出特征输入所述嵌入层,经过所述嵌入层进行投射及合并处理,获得每个人的语音特征。
6.如权利要求5所述的方法,其特征在于,所述全局关注局部循环单元包括局部循环层和全局关注层;
所述局部循环层用于对接收到的输入特征中的每段局部序列的段内短期依赖性进行建模,输出中间张量L1;
所述全局关注层用于基于多头自我注意力机制,对所述全局关注局部循环单元的中间张量G1中的每段局部序列进行段间处理;将基于多头自我注意力机制处理得到的张量进行线性映射后拼接得到三维张量,作为所述全局关注局部循环单元的输出特征,其中所述中间张量G1是对所述中间张量L1进行线性映射和层归一化处理后得到的张量与位置编码张量的和。
7.如权利要求3所述的方法,其特征在于,所述已训练的语音分离模型还包括语音信号刺激子网络;所述语音信号刺激子网络包括由B2个全局关注局部循环单元组成的堆栈和解码器,B2为正整数;
所述基于所述已训练的语音分离模型,根据每个人的语音特征以及所述编码特征之间的关系,对每个人的语音特征进行调整,并对调整后的语音特征进行信号重建,获得所述已训练的语音分离模型输出的每个人的重建语音信号,具体包括:
将每个人的语音特征以及所述编码特征输入由B2个全局关注局部循环单元组成的堆栈,进行B2次注意力特征提取,获得最后一个全局关注局部循环单元输出的用于分离所述混合波形信号的深度语音特征,其中每个全局关注局部循环单元的输入特征都包括每个人的语音特...
【专利技术属性】
技术研发人员:王珺,林永业,苏丹,俞栋,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。