一种基于多层注意力机制的语音分离方法、模块技术

技术编号：23086715 阅读：34 留言：0更新日期：2020-01-11 01:43

本发明专利技术公开一种基于多层注意力机制的语音分离方法，包括以下步骤：S1：获取混合语音中特定讲话人的干净语音，并提取所述特定讲话人的声纹信息，所述混合语音包括多个讲话者；S2：通过多层注意结构和特定讲话人的声纹信息，连续净化所述混合语音，以获取分离语音。本发明专利技术在每一层中引入说话人信息以添加辅助信息以帮助提取语音，引入计算注意机制以处理每一层的输出，并通过多层结构提取语音信号。

A speech separation method and module based on multi-layer attention mechanism

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多层注意力机制的语音分离方法、模块
本专利技术属于语音处理应用
，尤其涉及一种基于多层注意力机制的语音分离方法及模块。
技术介绍
鸡尾酒会问题自1953年由Cheery提出以来一直是研究的热门话题。几十年来，学术界一直在研究如何使机器在像人类这样复杂的环境中区分说话者的语音。到目前为止，还没有完美的解决方案。单麦克风中的语音分离是一个欠定问题，这比多麦克风阵列问题更难。因为在分离语音的过程中，存在无限的可能性组合，并且需要通过规则或约束来获得分离的语音的最终解决方案。非负矩阵分解(NMF)和计算听觉场景分析(CASA)促进了语音分离任务的发展，但这些方法中假设的一些限制限制了该技术在日常环境中的使用。为了避免假设所施加的限制，数据驱动的方法可能是更好的选择，并且将成为解决语音问题的一个可能途径。目前，语音分离问题存在两个主要困难。一个是排列问题，另一个是输出维度不匹配问题。对于前者，提出了置换不变训练(PIT)来缓解网络中目标标签不匹配造成的梯度冲突，但是这种方法仍然需要确定固定数量的输出，无法分离任意数量的源。深度聚类(DC)方法通过构造嵌入表示和聚类时频点解决了这两个问题。在高维结构中，DC方法为不同说话人的不同时频点构造一个嵌入表示，并采用自相关矩阵，使得训练模型可以容易地扩展到三个说话人而无需再训练。提出了深度吸引网络(DANet)模型，通过首先计算聚类的吸引矢量来分离相应的语音。然后将训练过的吸引子视为测试阶段的空间特征表示。目前的大多数方法都侧重于说话者独立的...

【技术保护点】
1.一种基于多层注意力机制的语音分离方法，其特征在于，包括以下步骤：/nS1：获取混合语音中特定讲话人的干净语音，并提取所述特定讲话人的声纹信息，所述混合语音包括多个讲话者；/nS2：通过多层注意结构和特定讲话人的声纹信息，连续净化所述混合语音，以获取分离语音。/n

【技术特征摘要】
1.一种基于多层注意力机制的语音分离方法，其特征在于，包括以下步骤：
S1：获取混合语音中特定讲话人的干净语音，并提取所述特定讲话人的声纹信息，所述混合语音包括多个讲话者；
S2：通过多层注意结构和特定讲话人的声纹信息，连续净化所述混合语音，以获取分离语音。

2.根据权利要求1所述的语音分离方法，其特征在于，步骤S1具体包括：
1)定义s为特定讲话人的干净语音，并通过短时傅里叶变换(STFT)将其转换为时频域St，将St作为双向-长期短期记忆(Bi-LSTM)层的输入，每一帧输入可以对应获得一个时间步的隐状态输出ht；
ht＝Bi-LSTM(St)(1)；
2)将每个时间步的输出ht求和后取平均值，得到特定讲话人声纹向量表达pi，T为最大时间步：

3.根据权利要求2所述的语音分离方法，其特征在于，步骤S2具体包括：
1)定义x为原始多讲话者混合语音，然后通过STFT将其转换为时频域Xt，使用Xt作为Bi-LSTM层的输入，...

【专利技术属性】
技术研发人员：蓝天，李萌，彭川，刘峤，钱宇欣，叶文政，李森，惠国强，吕忆蓝，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人