一种基于多层注意力机制的语音分离方法、模块技术

技术编号:23086715 阅读:34 留言:0更新日期:2020-01-11 01:43
本发明专利技术公开一种基于多层注意力机制的语音分离方法,包括以下步骤:S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。本发明专利技术在每一层中引入说话人信息以添加辅助信息以帮助提取语音,引入计算注意机制以处理每一层的输出,并通过多层结构提取语音信号。

A speech separation method and module based on multi-layer attention mechanism

【技术实现步骤摘要】
一种基于多层注意力机制的语音分离方法、模块
本专利技术属于语音处理应用
,尤其涉及一种基于多层注意力机制的语音分离方法及模块。
技术介绍
鸡尾酒会问题自1953年由Cheery提出以来一直是研究的热门话题。几十年来,学术界一直在研究如何使机器在像人类这样复杂的环境中区分说话者的语音。到目前为止,还没有完美的解决方案。单麦克风中的语音分离是一个欠定问题,这比多麦克风阵列问题更难。因为在分离语音的过程中,存在无限的可能性组合,并且需要通过规则或约束来获得分离的语音的最终解决方案。非负矩阵分解(NMF)和计算听觉场景分析(CASA)促进了语音分离任务的发展,但这些方法中假设的一些限制限制了该技术在日常环境中的使用。为了避免假设所施加的限制,数据驱动的方法可能是更好的选择,并且将成为解决语音问题的一个可能途径。目前,语音分离问题存在两个主要困难。一个是排列问题,另一个是输出维度不匹配问题。对于前者,提出了置换不变训练(PIT)来缓解网络中目标标签不匹配造成的梯度冲突,但是这种方法仍然需要确定固定数量的输出,无法分离任意数量的源。深度聚类(DC)方法通过构造嵌入表示和聚类时频点解决了这两个问题。在高维结构中,DC方法为不同说话人的不同时频点构造一个嵌入表示,并采用自相关矩阵,使得训练模型可以容易地扩展到三个说话人而无需再训练。提出了深度吸引网络(DANet)模型,通过首先计算聚类的吸引矢量来分离相应的语音。然后将训练过的吸引子视为测试阶段的空间特征表示。目前的大多数方法都侧重于说话者独立的框架而忽略了说话者信息的使用。
技术实现思路
本专利技术提供一种基于多层注意力机制的语音分离方法,旨在解决上述存在的问题。本专利技术还提供一种基于多层注意力机制的语音分离模块,旨在解决上述存在的问题。本专利技术是这样实现的,一种基于多层注意力机制的语音分离方法,包括以下步骤:S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。进一步的,步骤S1具体包括:1)定义s为特定讲话人的干净语音,并通过短时傅里叶变换(STFT)将其转换为时频域St,将St作为双向-长期短期记忆(Bi-LSTM)层的输入,每一帧输入可以对应获得一个时间步的隐状态输出ht;ht=Bi-LSTM(St)(1);2)将每个时间步的输出ht求和后取平均值,得到特定讲话人声纹向量表达pi,T为最大时间步:3、根据权利要求2所述的语音分离方法,其特征在于,步骤S2具体包括:1)定义x为原始多讲话者混合语音,然后通过STFT将其转换为时频域Xt,使用Xt作为Bi-LSTM层的输入,得到隐状态输出hi为:hi=Bi-LSTM(Xt)(3);2)将特定讲话人的声纹信息pi与hi进行拼接,然后送入多层感知机(MLP)计算得到注意力权重ej,并将其标准化,得到标准化后的注意力得分αt:ej=MLP(ht,pi)(4);3)将注意力得分αt与上一层Bi-LSTM的输出ht直接相乘,获得过滤后的特征ft,过滤后的特征ft被视为对前一层输出过滤后的结果,然后作为下一个Bi-LSTM层的输入;:ft=αt*ht(6);4)在输出层,使用MLP对最后一层ft进行的特征映射,得到预测的分离语音量幅度谱MLP层计算与损失函数定义如下:其中yt表示对应的干净语音幅度谱。本专利技术还提供一种基于多层注意力机制的语音分离模块,包括:语音编码子模块,用于提取特定讲话人的语音信息;语音分离子模块,通过多层注意结构和语音信息连续净化混合语音,以获得包含完整信息的分离语音。与现有技术相比,本专利技术的有益效果是:(1)在每一层中引入说话人信息,通过添加辅助信息的方式帮助模型更好的学习到对混合语音中特定说话人信息的提取(2)引入计算注意机制对每一层的输出进行定向过滤,使得模型能够保留更多与特定说话人语音成分有关的信息(3)通过多层结构提取语音信号,保证了模型复杂度,在一定层数内的增加,能够提升模型效果。附图说明图1为本专利技术中基于多层关注的语音分离结构示意图;图2为本专利技术中语音分离结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例本专利技术提供一种技术方案:一种基于多层注意力机制的语音分离方法,包括以下步骤:S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。为了将指定的说话者语音与多说话者混合语音分开,在该模型中应用说话者信息,该方法允许模型关注在多讲者环境中的一个说话人语音;本专利技术将模型分为两部分来解释,说话人编码器模块用于提取特定说话人信息,语音分离模块通过多层注意结构连续净化混合语音,以获得包含更完整信息的分离语音;所提出的基于多层关注的语音分离模型如图1所示。本专利技术定义s为原始干净的说话人语音,并通过短时傅里叶变换(STFT)将其转换为时频域St,然后本专利技术用St作双向-长期短期记忆(Bi-LSTM)层的输入,可以获得每个时间步的隐藏层向量hi。ht=Bi-LSTM(St)本专利技术对每个时间步的输出ht求平均值,得到特定的说话人生成声纹向量pi。最大时间步长定义为T。每个向量pi都可以看作是具有d维的说话者i的声纹。每次执行语音分离时,模型需要首先获得相应说话者的干净语音,并提取该特征以获得说话者的声纹信息。将Bi-LSTM的输出的取平均,得到固定长度矢量pi,并与语音分离模块进行联合训练。语音分离模块是所提出模型的主要部分,本专利技术定义x为原始多讲话者混合语音,然后通过STFT将其转换为时频域Xt。在这个模块中,本专利技术使用Xt作为输入,第一个Bi-LSTM层定义为:h1=Bi-LSTM(Xt)这里的Bi-LSTM具有与先前模型中的Bi-LSTM相同数量的隐藏层单元,但不共享权重。在多层结构中,Bi-LSTM每层都整合了说话人信息。受注意力机制的启发,本专利技术使用说话者信息来计算每个图层输出的注意力得分,然后将注意力权重应用于前一层的输出以过滤不相关的信息。在这里,本专利技术使用MLP计算注意力得分ei,并将其标准化,细节如图2所示。eti=MLP(St,pi)获得注意力得分αi后,本专利技术将其乘以Bi-LSTM的输出以获得过滤后的特征fi。fi=αt*hi-1过滤后的特征fi被视为来自前一层输出的方向过滤器,然后本文档来自技高网
...

【技术保护点】
1.一种基于多层注意力机制的语音分离方法,其特征在于,包括以下步骤:/nS1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;/nS2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。/n

【技术特征摘要】
1.一种基于多层注意力机制的语音分离方法,其特征在于,包括以下步骤:
S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;
S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。


2.根据权利要求1所述的语音分离方法,其特征在于,步骤S1具体包括:
1)定义s为特定讲话人的干净语音,并通过短时傅里叶变换(STFT)将其转换为时频域St,将St作为双向-长期短期记忆(Bi-LSTM)层的输入,每一帧输入可以对应获得一个时间步的隐状态输出ht;
ht=Bi-LSTM(St)(1);
2)将每个时间步的输出ht求和后取平均值,得到特定讲话人声纹向量表达pi,T为最大时间步:





3.根据权利要求2所述的语音分离方法,其特征在于,步骤S2具体包括:
1)定义x为原始多讲话者混合语音,然后通过STFT将其转换为时频域Xt,使用Xt作为Bi-LSTM层的输入,...

【专利技术属性】
技术研发人员:蓝天李萌彭川刘峤钱宇欣叶文政李森惠国强吕忆蓝
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1