【技术实现步骤摘要】
一种多通道双说话人分离方法及系统
[0001]本申请实施例涉及语音分离领域,具体涉及一种多通道双说话人分离方法及系统。
技术介绍
[0002]语音分离的目标是将不同说话人从带有混响和噪声的混合语音音频中分离出来,得到干净的单独说话人的语音。语音分离作为语音识别系统、语音日志等技术的前端,在教学环境、会议环境等多种环境下都有广泛的应用。
[0003]深度聚类是一种传统的语音分离方法。它通过训练目标说话人在混合语音音频上的理想二值掩蔽,得到目标说话人的分离语音。在训练过程中,需要对每一个时频单元进行向量化,进而将距离相近的时频单元聚类在一起。但对于不同语音环境的影响,深度聚类的性能十分有限。
[0004]近年来,基于深度神经网络的语音分离模型在语音分离领域迅速发展,性能已远超传统方法。但目前,大多数实验研究的仍然是基于完全重叠的混合语音音频的语音分离,对于会议等单个说话人占主导的语音环境有所忽略。研究显示,在会议环境下,说话人重叠的比例一般不高于20%,因此,对于不同低说话人重叠比例的语音分离,鲁棒性能仍有待提升 ...
【技术保护点】
【技术特征摘要】
1.一种多通道双说话人分离方法,其特征在于,所述方法包括:对混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧音频的频谱;所述混合语音音频包括不同说话人重叠比例的混合语音音频;根据所述每帧音频的频谱和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计,所述目标说话人的笛卡尔坐标估计指示加权的所述目标说话人的声源位置估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到第一目标说话人掩蔽和第一干扰说话人掩蔽;基于所述第一目标说话人掩蔽和第一干扰说话人掩蔽和所述混合语音音频,得到目标说话人语音和干扰说话人语音。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定混合语音音频的训练集,基于所述混合语音音频的训练集确定训练语音音频及标签;所述标签包括声源位置向量、第二目标说话人语音和第二干扰说话人语音;根据所述训练语音音频训练所述声源位置估计网络;训练所述说话人掩蔽估计网络;联合训练所述声源位置估计网络和所述说话人掩蔽估计网络,获得训练好的声源位置估计网络和说话人掩蔽估计网络。3.根据权利要求2所述的方法,其特征在于,根据所述训练语音音频训练所述声源位置估计网络,包括:对所述训练语音音频进行分帧、加窗和傅里叶变换处理,得到所述训练语音音频的频谱;所述训练语音音频的频谱包括实部和虚部;以所述实部和虚部拼接后的数据为所述声源位置估计网络的输入,以声源位置向量估计为输出,计算第一损失函数的值,所述第一损失函数为声源位置的均方误差;以所述第一损失函数的值在第一阈值以内为目标进行训练,得到训练好的所述声源位置估计网络和对应的权重向量;所述声源位置估计网络包括3层卷积模块、2层双向长短时记忆网络和2层全连接层。4.根据权利要求2所述的方法,其特征在于,所述训练所述说话人掩蔽估计网络,包括:根据所述训练语音音频和所述声源位置向量确定第二角度特征、第二对数能量谱和第二正余弦通道间相位差;以所述第二角度特征、第二对数能量谱和第二正余弦通道间相位差为输入,以第二目标说话人掩蔽和第二干扰说话人掩蔽为输出,计算所述第二目标说话人掩蔽与所述训练语音音频相乘的积,得到估计说话人语音信号;计算所述第二干扰说话人掩蔽与训练语音音频相乘的积,得到估计干扰说话人语音信号;计算第二损失函数的值,所述第二损失函数的值为估计语音信号与目标语音信号损失
比值的对数值;所述估计语音信号包括估计说话人语音信号和估计干扰说话人语音信号;所述目标语音信号包括第二目标说话人语音和第二干扰说话人语音;以第二损失函数的值在第二阈值以内为目标进行训练,得到训练好的所述说话...
【专利技术属性】
技术研发人员:张鹏远,杨弋,陈航艇,颜永红,
申请(专利权)人:中国科学院声学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。