【技术实现步骤摘要】
单通道人机交互语音分离方法、装置、计算机设备和介质
[0001]本申请涉及单声道语音分离
,特别是涉及一种单通道人机交互语音分离方法、装置、计算机设备和存储介质。
技术介绍
[0002]单通道语音分离问题在语音业界又称为
‘
鸡尾酒会
’
问题,意在嘈杂的环境中分离出目标声音,或者提取背景音乐,其难点在于输入的声源数量以及要分离的语音目标,比如两人对话的语音分离和三人对话的语音分离,甚至多人晚会上的语音分离都是难度不同的场景,其所用的技术方案也不尽相同。
[0003]从传统技术角度来看,像谱减法,还有维纳滤波法,这些方法估计噪声的功率谱,维纳滤波在用最小均方误差来分离纯净语音的场景下是最优的,在假定语音和噪声的先验分布条件下,给定噪声就可以推理出语音的谱系数,这类传统方法需要噪声是平稳或者缓慢变换的,在满足这些前提情况下,这些传统方法确实可以取得不错的效果。基于深度学习的语音分离则是借助深层神经网络有监督的进行训练,也能取得不错的效果。
[0004]然而,上述传统方法所假 ...
【技术保护点】
【技术特征摘要】
1.一种单通道人机交互语音分离方法,其特征在于,所述方法包括:通过时序循环神经网络训练用于提取机器语音频谱的第一时频掩码和用于提取真人语音频谱的第二时频掩码;根据通过所述时序循环神经网络训练好的第一时频掩码和第二时频掩码对待分离的目标人机交互语音进行语音分离处理,得到从所述目标人机交互语音分离的机器语音和真人语音;通过所述时序循环神经网络进行每次训练的过程,包括:获取用于本次训练的人机交互语音;对获取的人机交互语音进行短时傅里叶变换,得到所述人机交互语音的频谱;对所述人机交互语音的频谱进行倒谱均值方差归一化和频谱聚类,得到第一机器语音频谱和第一真人语音频谱;将所述人机交互语音的频谱输入时序循环神经网络,得到时序循环神经网络输出的第一时频掩码和第二时频掩码;将所述时序循环神经网络在本次训练中输出的第一时频掩码和第二时频掩码,分别和所述人机交互语音的频谱进行矩阵分解,得到第二机器语音频谱和第二真人语音频谱;分别计算所述第一机器语音频谱和所述第二机器语音频谱间的第一误差、以及所述第一真人语音频谱和所述第二真人语音频谱间的第二误差;根据所述第一误差和所述第二误差判断是否满足停止训练条件;若不满足,根据所述第一误差和所述第二误差更新时序循环神经网络的网络参数,并通过更新后的时序循环神经网络进行下一次训练;若满足,停止训练,将所述时序循环神经网络在本次训练中输出的第一时频掩码和第二时频掩码作为训练好的第一时频掩码和第二时频掩码。2.如权利要求1所述的方法,其特征在于,所述根据通过所述时序循环神经网络训练好的第一时频掩码和第二时频掩码对待分离的目标人机交互语音进行语音分离处理,得到从所述目标人机交互语音分离的机器语音和真人语音,包括:获取所述待分离的目标人机交互语音;对所述目标人机交互语音进行短时傅里叶变换,得到所述目标人机交互语音的频谱;将通过所述时序循环神经网络训练好的第一时频掩码和第二时频掩码,分别和所述目标人机交互语音的频谱进行矩阵分解,得到机器语音频谱和真人语音频谱;将所述机器语音频谱和所述真人语音频谱分别进行反傅里叶变换,得到所述机器语音和所述真人语音。3.如权利要求1所述的方法,其特征在于,所述对所述人机交互语音的频谱进行倒谱均值方差归一化和频谱聚类,得到第一机器语音频谱和第一真人语音频谱,包括:对所述人机交互语音的频谱进行倒谱均值方差归一化处理,得到处理后的频谱;对所述处理后的频谱进行频谱聚类,根据频谱聚类的处理结果得到第一机器语音频谱和第一真人语音频谱。4.如权利要求3所述的方法,其特征在于,所述对所述处理后的频谱进行频谱聚类,根据频谱聚类的处理结果得到第一机器语音频谱和第一真人语音频谱,包括:使用第一聚类算法将所述处理后的频谱中包括的频谱单元分为机器语音簇和非机器
语音簇;使用第二聚类算法从所述非机器语音簇对应的频谱单元中分出一个簇作为真人语音簇;根据所述机器语音簇得到第一机器语音频谱;根据所述真人...
【专利技术属性】
技术研发人员:王天圣,
申请(专利权)人:上海数禾信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。