一种双人语音分离方法、装置、电子设备和存储介质制造方法及图纸

技术编号：32640792 阅读：35 留言：0更新日期：2022-03-12 18:16

本申请涉及一种双人语音分离方法、装置、电子设备和存储介质，该方法包括：获取麦克风阵列接收到的混合语音信号，将混合语音信号进行短时傅里叶变换，得到时频域形式的混合语音信号；将时频域形式的混合语音信号通过盲源分离算法得到第一通道的语音信号和第二通道的语音信号；检测第一通道的语音信号的状态和第二通道的语音信号的状态；根据状态确定第一通道的第一语音信号和第二通道的第一语音信号；确定第一通道和第二通道的方位，根据第一通道和第二通道的方位确定第一通道的第二语音信号和第二通道的第二语音信号；将第一通道的第二语音信号和第二通道的第二语音信号进行短时傅里叶逆变换，得到两个目标声源的语音时域信号，准确分离语音。准确分离语音。准确分离语音。

全部详细技术资料下载

【技术实现步骤摘要】
一种双人语音分离方法、装置、电子设备和存储介质

[0001]本申请涉及语音分离
，特别是涉及一种双人语音分离方法、装置、电子设备和存储介质。

技术介绍

[0002]对麦克风阵列采集到的语音信号去混响后进行盲源分离，得到每个目标的语音信号。盲源分离后的语音残留较多，存在语音交叠时分离结果不佳；当应用场景切换时可能存在通道间分离错误。

技术实现思路

[0003]基于上述问题，本申请提供一种双人语音分离方法、电子设备和存储介质。
[0004]第一方面，本申请实施例提供一种双人语音分离方法，包括：
[0005]获取麦克风阵列接收到的混合语音信号，混合语音信号中包括：第一目标声源和第二目标声源；
[0006]将混合语音信号进行短时傅里叶变换，得到时频域形式的混合语音信号；
[0007]将时频域形式的混合语音信号去混响之后通过盲源分离算法得到第一通道的语音信号和第二通道的语音信号；
[0008]检测第一通道的语音信号的状态和第二通道的语音信号的状态；
[0009]根据...

【技术保护点】

【技术特征摘要】
1.一种双人语音分离方法，其特征在于，包括：获取麦克风阵列接收到的混合语音信号，所述混合语音信号中包括：第一目标声源和第二目标声源；将所述混合语音信号进行短时傅里叶变换，得到时频域形式的混合语音信号；将所述时频域形式的混合语音信号去混响之后通过盲源分离算法得到第一通道的语音信号和第二通道的语音信号；检测第一通道的语音信号的状态和第二通道的语音信号的状态；根据所述第一通道的语音信号的状态和所述第二通道的语音信号的状态以及预设第一通道的语音信号的阈值、预设第二通道的语音信号的阈值、设定能量对比1、设定能量对比2、每一帧的能量确定第一通道的第一语音信号和第二通道的第一语音信号；确定第一通道的俯仰角和方位角以及第二通道的俯仰角和方位角、确定第一通道的俯仰角偏差和第一通道的方位角偏差、第二通道的俯仰角偏差和第二通道的方位角偏差；根据第一通道的俯仰角偏差和第一通道的方位角偏差以及第二通道的俯仰角偏差和第二通道的俯仰角偏差偏差确定第一通道的第二语音信号和第二通道的第二语音信号；将第一通道的第二语音信号和第二通道的第二语音信号进行短时傅里叶逆变换，得到第一目标声源的语音时域信号和第二目标声源的语音时域信号。2.根据权利要求1所述的一种双人语音分离方法，其特征在于，所述检测第一通道的语音信号的状态和第二通道的语音信号的状态，通过语音活动性检测算法分别检测第一通道的语音信号的状态和第二通道的语音信号的状态。3.根据权利要求1所述的一种双人语音分离方法，其特征在于，所述确定第一通道的俯仰角和方位角以及第二通道的俯仰角和方位角、第一通道的俯仰角偏差和第一通道的方位角偏差、第二通道的俯仰角偏差和第二通道的方位角偏差，包括：获取第一目标声源的俯仰角和方位角以及第二目标声源的俯仰角和方位角；根据第一通道的俯仰角和方位角以及第一目标声源的俯仰角和方位角计算第一通道的俯仰角偏差和第一通道的方位角偏差；根据第二通道的俯仰角和方位角以及第二目标声源的俯仰角和方位角计算第二通道的俯仰角偏差和第二通道的方位角偏差。4.根据权利要求1所述的一种双人语音分离方法，其特征在于，所述根据所述第一通道的语音信号的状态和所述第二通道的语音信号的状态以及预设第一通道的语音信号的阈值、预设第二通道的语音信号的阈值、设定能量对比1、设定能量对比2、每一帧的能量确定第一通道的第一语音信号和第二通道的第一语音信号，包括：第一通道的语音信号的状态大于预设第一通道的语音信号的阈值且第二通道的语音信号的状态大于预设第二通道的语音信号的阈值，采用能量对比1，当第一帧在第一通道的能量大于等于第二通道的能量和设定能量对比1之和；则第一帧是第一通道的第一语音信号，当第一帧在第二通道的能量大于等于第一通道的能量和设定能量对比1之和；则第一帧是第二通道的第一语音信号；第一通道的语音信号的状态小于等于预设第一通道的语音信号的阈值后第二通道的语音信号的状态小于等于预设第二通道的语音信号的阈值，采用能量对比2，当第一帧在第一通道的能量大于等于第二通道的能量和设定能量对比2之和；则第一帧是第一通道的第
一语音信号，当第一帧在第二通道的能量大于等于第一通道的能量和设定能量对比2之和；则第一帧是第二通道的信号第一语音信号。5.根据权利要求1所述的一种双人语音分离方法，其特征在于，所述确定第一通道的俯仰角...

【专利技术属性】
技术研发人员：戴玮，关海欣，梁家恩，
申请(专利权)人：深圳云知声信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人