System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种适用于语音序列的多特征自适应选择融合方法技术_技高网

一种适用于语音序列的多特征自适应选择融合方法技术

技术编号:43568400 阅读:21 留言:0更新日期:2024-12-06 17:38
本发明专利技术提供一种适用于语音序列的多特征自适应选择融合方法,涉及语音分离技术领域。该方法涉及语音域对齐模块、自适应选择模块ASM和多特征融合模块FFM;语音域对齐模块在时间维度上利用输入特征X<subgt;2</subgt;对齐提取的输入特征X<subgt;1</subgt;,得到特征F<subgt;0</subgt;;自适应选择模块ASM通过自适应Map块对输入特征中每个通道的特征进行细化处理;通过选择Map块对细化后的特征中的每个时序信息进行选择;多特征融合模块将经过语音域对齐模块得到的F<subgt;0</subgt;与输入特征X<subgt;2</subgt;通过自适应选择模块ASM进行细化选择后进行融合,以丰富原始特征的表示能力。该方法能够有效融合两个时间维度不一致的特征向量,得到的融合特征能够进一步提高分离模型的分离精度和分离质量。

【技术实现步骤摘要】

本专利技术涉及语音分离,尤其涉及一种适用于语音序列的多特征自适应选择融合方法


技术介绍

1、基于深度学习中常见的特征融合方式有两种,一是逐位相加(point-wiseaddition),逐位相加是将两个特征向量直接进行对应元素的相加,相加的前提必须是两个特征向量的所有维度都是相同的;二是向量拼接(concatenate),这也是一种更为通用的特征融合方法,向量拼接是在两个特征向量的对应维度上进行拼接,这两个特征向量的拼接维度上可以不相同,但其余维度必须相同。可见,以上两种特征融合方式使用场景具有局限性,它不能够对来自不同域的特征进行自适应的选择融合。另外,逐位相加融合之后的特征仅得到特征的平均值,向量拼接通过拼接不同尺度的特征从而提高特征的感知能力,但这两种融合特征仍然太过简单和粗糙。

2、为了获取更有利于提升模型性能的丰富特征,需要设计一种模块,自适应选择和融合两种不同的域特征。


技术实现思路

1、本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种适用于语音序列的多特征自适应选择融合方法,实现多特征的自适应选择融合。

2、为解决上述技术问题,本专利技术所采取的技术方案是:一种适用于语音序列的多特征自适应选择融合方法,涉及语音域对齐模块、自适应选择模块asm和多特征融合模块ffm;

3、所述语音域对齐模块在时间维度上利用输入特征x2对齐提取的输入特征x1,得到特征f0,如下公式表示:

4、f0=grid_sample(x1.unsqueeze(-1),

5、conv3×3(concat(upsample(conv1×1(x1)),conv1×1(x2))).unsqueeze(2)).squeeze(-1)

6、其中,unsqueeze(n)是指在数据的第n维位置上增加一个维度大小为1的维度;squeeze(n)是指在数据的第n维位置上减少一个维度大小为1的维度,upsample(·)用于恢复x1的时间维度,使x1与x2的时间维度大小保持一致;conv1×1(·)和conv3×3(·)用于提取x1,x2中不同粒度的语义流;grid_sample(·)是一种将扩充后中对应位置的特征值填充到语义流中的双线性插值函数;

7、所述自适应选择模块asm包括自适应map块和选择map块,实现对任意输入的特征进行特征细化选择;

8、所述自适应map块对输入特征中每个通道的特征进行细化处理,具体过程为:

9、输入任意的特征x首先经过两个不同的池化操作得到同时包含显著信息和全局信息的特征,然后将池化后的结果分别乘以可学习参数α和β分别得到特征favg和fmax,接着各自乘以1/2后相加得到特征fmiddle,再使用一维卷积和激活函数实现不同特征通道之间的信息交互,从而得到通道细化处理的特征frefined-map;

10、所述选择map块对细化后的特征frefined-map中的每个时序信息进行选择,具体为:

11、将细化后的特征frefined-map沿通道轴划分为两组,一组是从n维通道中选择一定比例的通道赋值为1,其余通道赋值为0,构成重要特征图fimport;另一组从n维通道中选择一定比例的通道赋值为0,其余通道赋值为1,作为次重要特征图fsub-import;然后将原始输入特征x与两组特征分别进行元素相乘,得到重要特征和次重要特征;再将这两种特征分别进行平均池化和最大池化后进行拼接,输入至一个共享的卷积层、归一化层和激活层后得到最终的细化选择特征frefined;

12、所述多特征融合模块将经过语音域对齐模块得到的f0与输入特征x2通过自适应选择模块asm进行细化选择后进行融合,以丰富原始特征的表示能力;具体过程如下:

13、多特征融合模块将特征f0和特征x2作为输入数据,首先将特征f0通过自适应选择模块asm得到细化选择的特征frefined,将细化选择的特征frefined经过全连接层以对特征进行线性投影,从而获得f1特征;同样也对输入的特征x2通过自适应选择模块asm进行特征细化选择并进行线性投影获得f2特征;其中,线性投影操作是使不同空间的特征位于相同的特征空间以更好的融合来自不同域的特征

14、其次,需要将输入的特征x2和特征f1进行融合,获得一种尺度不变的交互式特征;采用卷积核为1、步长为1的1d卷积提取特征x2和特征f1不同通道之间的信息,然后将两个分支的特征进行级联操后输入至卷积核为3、步长为1的1d卷积中提取不同特征之间的不同通道信息;然后通过自适应选择模块asm进行特征细化选择和线性投影操作,获得一种细化选择的交互式特征f3;

15、接着,采用两阶段的相关性计算串联式更新f1和f3特征,得到新的特征f′1和f′3;第一阶段的相关性计算根据特征f3和f2提取f1特征的高相关信息,减少f1中冗余特征,得到特征f′1;第二阶段的相关性计算根据f′1和f2提取交互特征f3的高相关信息,减少冗余特征,得到特征f′3;同时对输入的特征x2通过自适应选择模块asm进行特征细化选择并作为特征f′2,如下公式所示:

16、f′1=softmax(matmul(f3,f2))*f1

17、f′3=softmax(matmul(f′1,f2))*f3

18、f′2=asm(f2)

19、其中,matmul()表示点积运算;

20、最后通过设定可学习参数w1、w2分别对特征f′3、f′2进行自适应学习,将这两个特征拼接后得到最终的融合特征ffused输入至分离网络以提高分离模型的性能,如下公式所示:

21、ffused=w1*f′3+w2*f′2。

22、采用上述技术方案所产生的有益效果在于:本专利技术提供的一种适用于语音序列的多特征自适应选择融合方法,能够有效融合两个时间维度不一致的特征向量。其中,语音域对齐模块能够将两个输入特征进行采样点级别的序列对齐,同时还可以捕获特征的语义信息以加强特征的语义信息,使对齐后的特征更准确。自适应选择模块不仅能够对输入特征的每个通道特征进行细化,还可以对每个时序信息进行细化,以便从粗略的原始特征中选择出重要的特征信息,以减少特征的冗余。多特征融合模块能够利用特征之间的相关性信息自适应学习多种不同特征,得到的融合特征能够进一步提高分离模型的分离精度和分离质量。

本文档来自技高网...

【技术保护点】

1.一种适用于语音序列的多特征自适应选择融合方法,其特征在于:涉及语音域对齐模块、自适应选择模块ASM和多特征融合模块FFM;

2.根据权利要求1所述的一种适用于语音序列的多特征自适应选择融合方法,其特征在于:所述语音域对齐模块通过如下公式得到特征F0:

3.根据权利要求2所述的一种适用于语音序列的多特征自适应选择融合方法,其特征在于:所述自适应Map块对输入特征中每个通道的特征进行细化处理,具体过程为:

4.根据权利要求3所述的一种适用于语音序列的多特征自适应选择融合方法,其特征在于:所述选择Map块对细化后的特征中的每个时序信息进行选择,具体为:

5.根据权利要求4所述的一种适用于语音序列的多特征自适应选择融合方法,其特征在于:所述多特征融合模块将经过语音域对齐模块得到的F0与输入特征X2通过自适应选择模块ASM进行细化选择后进行融合的具体过程如下:

【技术特征摘要】

1.一种适用于语音序列的多特征自适应选择融合方法,其特征在于:涉及语音域对齐模块、自适应选择模块asm和多特征融合模块ffm;

2.根据权利要求1所述的一种适用于语音序列的多特征自适应选择融合方法,其特征在于:所述语音域对齐模块通过如下公式得到特征f0:

3.根据权利要求2所述的一种适用于语音序列的多特征自适应选择融合方法,其特征在于:所述自适应map块对输入特征中每个通道的特征...

【专利技术属性】
技术研发人员:汪澜张海涛郭鹏飞王瑶
申请(专利权)人:汕头职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1