当前位置: 首页 > 专利查询>武汉大学专利>正文

基于TS-VAD的通用语音提取方法技术

技术编号:37790909 阅读:12 留言:0更新日期:2023-06-09 09:21
本发明专利技术公开了基于TS

【技术实现步骤摘要】
基于TS

VAD的通用语音提取方法


[0001]本专利技术涉及语音提取
,尤其涉及一种基于TS

VAD的通用语音提取方法。

技术介绍

[0002]语音提取技术是从一段录音中,排除环境和非目标对象的干扰,提取出目标语音的一种技术。随着人工智能,大数据,以及各种语音场景的需要,语音提取技术得到了广泛的应用,同时也面临着更大的挑战。在实际生活的语音场景中,多人对话的情况是复杂多变的,不仅说话人数目随时在发生变化,而且目标对象也存在停止说话的可能。多人日常对话下所有的语音情况可以分为以下四种:(1)多人交流,目标活跃;(2)目标一人,语音活跃;(3)多人交流,目标静音;(4)非目标一人,目标静音。以上情况进一步可以总结为两种具体情形:一是目标处于活跃状态,与任意(包括0)个非目标语音组成混合录音,二是目标处于静音,只有任意(包括0)个非目标语音组成的混合语音。由于实际语音场景的复杂多变,一个能够适应不同混合语音情况的鲁棒性通用语音提取方法是更符合实际生活要求的,也具有非常广阔的应用场景和重要的研究意义。
[0003]本专利技术将上述针对所有情况的语音提取任务称为通用语音提取。目前大部分的语音提取模型是针对单一重叠的混合录音,主要在在上述多人交流,目标活跃的情形中训练而忽略了上述提到的目标对象缺席、说话人数目变化等情形。这种模型直接应用到其他三种情况时,语音提取性能较差,可能输出噪声或者非目标语音。

技术实现思路

[0004]本专利技术的目的在于提供一种基于TS

VAD的通用语音提取方法,采用预训练和微调两部分网络联合训练,同时利用一种多任务损失函数引入与目标对象语音相关的调制参数,该方法能够解决语音提取时目标对象缺席产生的提取效果不理想的问题,同时提高模型在复杂语音条件下的性能。
[0005]为了解决上述技术问题,本专利技术技术方案为:提出基于TS

VAD的通用语音提取方法,包括:
[0006]S1:构建基于TS

VAD的通用语音提取模型,并进行预训练,固定预训练网络的多尺度编码器、嵌入向量提取网络和部分语音提取网络,称为通用提取网络,分为标语音提取模块和目标语音检测模块;
[0007]S2:通过预训练的多尺度编码器对输入的混合录音和参考语音进行特征转换,分别得到混合录音特征和参考语音特征;
[0008]S3:通过预训练的嵌入提取网络利用ResNet从参考语音特征中提取出目标对象的嵌入向量;
[0009]S4:通过预训练的语音提取网络将混合录音特征与目标对象的嵌入向量结合,通过多层时间卷积网络建立目标语音的掩蔽;
[0010]S5:通过预训练的多尺度语音解码器恢复出目标语音波形;
[0011]S6:微调通用提取网络的目标语音检测模块,实现TS

VAD概率向量估计,TS

VAD表示特定说话人语音活动检测;
[0012]S7:微调网络的目标语音提取模块,利用目标对象的嵌入向量估计出目标语音向量;
[0013]S8:对TS

VAD概率向量进行二值化,并对二值化TS

VAD概率向量进行微调,再与估计出的目标语音向量相乘,得到最终输出语音。
[0014]在一种实施方式中,步骤S1中的预训练过程采用多任务学习,该任务用函数表述如下:
[0015][0016]其中,s表示真实目标语音波形,分别表示短滤波波形,中滤波波形,长滤波波形,表示短中长三个尺度的估计语音和目标语音间尺度不变失真比SI

SDR指标负数的加权和,权重分别为1

α

β、α和β,I,分别表示说话人类别的独热编码向量真实标签,说话人类别的独热编码向量估计,Θ表示模型的训练参数,表示估计和真实的独热编码向量之间的交叉熵损失,表示真实语音和短滤波波形的Si

SDR,表示真实语音和中滤波波形的Si

SDR,真实语音和长滤波波形的Si

SDR,Si

SDR为比例不变信号失真比。
[0017]在一种实施方式中,步骤S2中的多尺度编码器由三个不同卷积核长度的一维卷积神经网络和一个线性整流函数组成,通过使用不同窗长的滤波器来提取多尺度的语音编码特征。
[0018]在一种实施方式中,步骤S3包括:
[0019]S3.1:将参考语音特征进行归一化处理;
[0020]S3.2:通过一个N
r
层的ResNet网络实现序列建模,其中,ResNet网络包括两个1
×
1卷积,两个归一化层,一个最大池化层以及两个激活函数,N
r
为正整数;
[0021]S3.3:使用1
×
1卷积和平均池化将残差网络的输出向量映射成固定的维度,并将帧平均,得到目标嵌入向量E;
[0022]S3.4:通过一个分类器,利用线性层和Softmax激活函数,通过目标嵌入向量E判断出对应的说话人类别。
[0023]在一种实施方式中,步骤S4包括:
[0024]S4.1:对混合录音特征进行归一化处理;
[0025]S4.2:利用1
×
1卷积网络对得到的归一化处理结果进行处理,实现特征降维;
[0026]S4.3:将降维的结果输入至语音提取主网络中,语音提取主网络重复使用N
pre
+N
ext1
个一维膨胀卷积堆叠组成的时间卷积网络,每个堆叠的时间卷积网络由8层时间卷积网络组成,并且每次在第一层引入嵌入向量与混合录音特征拼接,最后一个堆叠的时间卷积网络提取出目标语音中间特征
[0027]S4.4:将步骤S4.3的输出结果输入至多尺度输出层进行处理,多尺度输出层由三
个一维卷积和线性整流函数组成,将进行处理后得到不同尺度的掩蔽M1、M2和M3;
[0028]S4.5:将不同尺度的掩蔽与混合录音的特征编码相乘,得到不同尺度的语音编码特征特征和
[0029]在一种实施方式中,步骤S5包括:
[0030]多尺度编码器将输入的不同尺度的语音编码特征和转化到一维时域中,分别生成短、中、长三种波形和
[0031]对生成的三种波形加权组合成目标语音。
[0032]在一种实施方式中,目标语音检测模块包括N
vad
层堆叠的时间卷积网络,解码器和Sigmoid函数,步骤S6包括:
[0033]通过堆叠的时间卷积网络对提取的模块特征进行处理;
[0034]通过解码器将堆叠的时间卷积网络的输出特征在一维空间展开;
[0035]使用Sigmoid函数将特征值范围转换到0到1,作为TS

VAD估计的概率向量,其中,输出的值越大表示是目标对象的概率越大,反之越小。
...

【技术保护点】

【技术特征摘要】
1.基于TS

VAD的通用语音提取方法,其特征在于,包括:S1:构建基于TS

VAD的通用语音提取模型,并进行预训练,固定预训练网络的多尺度编码器、嵌入向量提取网络和部分语音提取网络,称为通用提取网络,分为标语音提取模块和目标语音检测模块;S2:通过预训练的多尺度编码器对输入的混合录音和参考语音进行特征转换,分别得到混合录音特征和参考语音特征;S3:通过预训练的嵌入提取网络利用ResNet从参考语音特征中提取出目标对象的嵌入向量;S4:通过预训练的语音提取网络将混合录音特征与目标对象的嵌入向量结合,通过多层时间卷积网络建立目标语音的掩蔽;S5:通过预训练的多尺度语音解码器恢复出目标语音波形;S6:微调通用提取网络的目标语音检测模块,实现TS

VAD概率向量估计,TS

VAD表示特定说话人语音活动检测;S7:微调网络的目标语音提取模块,利用目标对象的嵌入向量估计出目标语音向量;S8:对TS

VAD概率向量进行二值化,并对二值化TS

VAD概率向量进行微调,再与估计出的目标语音向量相乘,得到最终输出语音。2.如权利要求1所述的基于TS

VAD的通用语音提取方法,其特征在于,步骤S1中的预训练过程采用多任务学习,该任务用函数表述如下:其中,s表示真实目标语音波形,分别表示短滤波波形,中滤波波形,长滤波波形,
多尺度
表示短中长三个尺度的估计语音和目标语音间尺度不变失真比SI

SDR指标负数的加权和,权重分别为1

α

β、α和β,I,分别表示说话人类别的独热编码向量真实标签,说话人类别的独热编码向量估计,Θ表示模型的训练参数,表示估计和真实的独热编码向量之间的交叉熵损失,表示真实语音和短滤波波形的Si

SDR,表示真实语音和中滤波波形的Si

SDR,真实语音和长滤波波形的Si

SDR,Si

SDR为比例不变信号失真比。3.如权利要求1所述的基于TS

VAD的通用语音提取方法,其特征在于,步骤S2中的多尺度编码器由三个不同卷积核长度的一维卷积神经网络和一个线性整流函数组成,通过使用不同窗长的滤波器来提取多尺度的语音编码特征。4.如权利要求1所述的基于TS

VAD的通用语音提取方法,其特征在于,步骤S3包括:S3.1:将参考语音特征进行归一化处理;S3.2:通过一个N
r
层的ResNet网络实现序列建模,其中,ResNet网络包括两个1
×
1卷积,两个归一化层,一个最大池化层以及两个激活函数,N
r
为正整数;S3.3:使用1
×
1卷积和平均池化将残差网络的输出向量映射成固定的维度,并将帧平均,得到目标嵌入向量E;
S3.4:通过一个分类器,利用线性层和Softmax激活函数,通过目标嵌入向量E判断出对应的说话人类别。5.如权利要求1所述的基于TS

VAD的通用语音提取方法,其特征在于,步骤S4包括:S4.1:对混合录音特征进行归一化处理;S4.2:利用1
×
1卷...

【专利技术属性】
技术研发人员:张海剑左世玉张吴胜
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1