【技术实现步骤摘要】
一种基于多层注意力机制的语音分离方法、模块
本专利技术属于语音处理应用
,尤其涉及一种基于多层注意力机制的语音分离方法及模块。
技术介绍
鸡尾酒会问题自1953年由Cheery提出以来一直是研究的热门话题。几十年来,学术界一直在研究如何使机器在像人类这样复杂的环境中区分说话者的语音。到目前为止,还没有完美的解决方案。单麦克风中的语音分离是一个欠定问题,这比多麦克风阵列问题更难。因为在分离语音的过程中,存在无限的可能性组合,并且需要通过规则或约束来获得分离的语音的最终解决方案。非负矩阵分解(NMF)和计算听觉场景分析(CASA)促进了语音分离任务的发展,但这些方法中假设的一些限制限制了该技术在日常环境中的使用。为了避免假设所施加的限制,数据驱动的方法可能是更好的选择,并且将成为解决语音问题的一个可能途径。目前,语音分离问题存在两个主要困难。一个是排列问题,另一个是输出维度不匹配问题。对于前者,提出了置换不变训练(PIT)来缓解网络中目标标签不匹配造成的梯度冲突,但是这种方法仍然需要确定固定数量的输 ...
【技术保护点】
1.一种基于多层注意力机制的语音分离方法,其特征在于,包括以下步骤:/nS1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;/nS2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。/n
【技术特征摘要】
1.一种基于多层注意力机制的语音分离方法,其特征在于,包括以下步骤:
S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;
S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。
2.根据权利要求1所述的语音分离方法,其特征在于,步骤S1具体包括:
1)定义s为特定讲话人的干净语音,并通过短时傅里叶变换(STFT)将其转换为时频域St,将St作为双向-长期短期记忆(Bi-LSTM)层的输入,每一帧输入可以对应获得一个时间步的隐状态输出ht;
ht=Bi-LSTM(St)(1);
2)将每个时间步的输出ht求和后取平均值,得到特定讲话人声纹向量表达pi,T为最大时间步:
3.根据权利要求2所述的语音分离方法,其特征在于,步骤S2具体包括:
1)定义x为原始多讲话者混合语音,然后通过STFT将其转换为时频域Xt,使用Xt作为Bi-LSTM层的输入,...
【专利技术属性】
技术研发人员:蓝天,李萌,彭川,刘峤,钱宇欣,叶文政,李森,惠国强,吕忆蓝,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。