【技术实现步骤摘要】
基于TS
‑
VAD的通用语音提取方法
[0001]本专利技术涉及语音提取
,尤其涉及一种基于TS
‑
VAD的通用语音提取方法。
技术介绍
[0002]语音提取技术是从一段录音中,排除环境和非目标对象的干扰,提取出目标语音的一种技术。随着人工智能,大数据,以及各种语音场景的需要,语音提取技术得到了广泛的应用,同时也面临着更大的挑战。在实际生活的语音场景中,多人对话的情况是复杂多变的,不仅说话人数目随时在发生变化,而且目标对象也存在停止说话的可能。多人日常对话下所有的语音情况可以分为以下四种:(1)多人交流,目标活跃;(2)目标一人,语音活跃;(3)多人交流,目标静音;(4)非目标一人,目标静音。以上情况进一步可以总结为两种具体情形:一是目标处于活跃状态,与任意(包括0)个非目标语音组成混合录音,二是目标处于静音,只有任意(包括0)个非目标语音组成的混合语音。由于实际语音场景的复杂多变,一个能够适应不同混合语音情况的鲁棒性通用语音提取方法是更符合实际生活要求的,也具有非常广阔的应用场景和重要的研究意义。
[0003]本专利技术将上述针对所有情况的语音提取任务称为通用语音提取。目前大部分的语音提取模型是针对单一重叠的混合录音,主要在在上述多人交流,目标活跃的情形中训练而忽略了上述提到的目标对象缺席、说话人数目变化等情形。这种模型直接应用到其他三种情况时,语音提取性能较差,可能输出噪声或者非目标语音。
技术实现思路
[0004]本专利技术的目的在于提供一种基于
【技术保护点】
【技术特征摘要】
1.基于TS
‑
VAD的通用语音提取方法,其特征在于,包括:S1:构建基于TS
‑
VAD的通用语音提取模型,并进行预训练,固定预训练网络的多尺度编码器、嵌入向量提取网络和部分语音提取网络,称为通用提取网络,分为标语音提取模块和目标语音检测模块;S2:通过预训练的多尺度编码器对输入的混合录音和参考语音进行特征转换,分别得到混合录音特征和参考语音特征;S3:通过预训练的嵌入提取网络利用ResNet从参考语音特征中提取出目标对象的嵌入向量;S4:通过预训练的语音提取网络将混合录音特征与目标对象的嵌入向量结合,通过多层时间卷积网络建立目标语音的掩蔽;S5:通过预训练的多尺度语音解码器恢复出目标语音波形;S6:微调通用提取网络的目标语音检测模块,实现TS
‑
VAD概率向量估计,TS
‑
VAD表示特定说话人语音活动检测;S7:微调网络的目标语音提取模块,利用目标对象的嵌入向量估计出目标语音向量;S8:对TS
‑
VAD概率向量进行二值化,并对二值化TS
‑
VAD概率向量进行微调,再与估计出的目标语音向量相乘,得到最终输出语音。2.如权利要求1所述的基于TS
‑
VAD的通用语音提取方法,其特征在于,步骤S1中的预训练过程采用多任务学习,该任务用函数表述如下:其中,s表示真实目标语音波形,分别表示短滤波波形,中滤波波形,长滤波波形,
多尺度
表示短中长三个尺度的估计语音和目标语音间尺度不变失真比SI
‑
SDR指标负数的加权和,权重分别为1
‑
α
‑
β、α和β,I,分别表示说话人类别的独热编码向量真实标签,说话人类别的独热编码向量估计,Θ表示模型的训练参数,表示估计和真实的独热编码向量之间的交叉熵损失,表示真实语音和短滤波波形的Si
‑
SDR,表示真实语音和中滤波波形的Si
‑
SDR,真实语音和长滤波波形的Si
‑
SDR,Si
‑
SDR为比例不变信号失真比。3.如权利要求1所述的基于TS
‑
VAD的通用语音提取方法,其特征在于,步骤S2中的多尺度编码器由三个不同卷积核长度的一维卷积神经网络和一个线性整流函数组成,通过使用不同窗长的滤波器来提取多尺度的语音编码特征。4.如权利要求1所述的基于TS
‑
VAD的通用语音提取方法,其特征在于,步骤S3包括:S3.1:将参考语音特征进行归一化处理;S3.2:通过一个N
r
层的ResNet网络实现序列建模,其中,ResNet网络包括两个1
×
1卷积,两个归一化层,一个最大池化层以及两个激活函数,N
r
为正整数;S3.3:使用1
×
1卷积和平均池化将残差网络的输出向量映射成固定的维度,并将帧平均,得到目标嵌入向量E;
S3.4:通过一个分类器,利用线性层和Softmax激活函数,通过目标嵌入向量E判断出对应的说话人类别。5.如权利要求1所述的基于TS
‑
VAD的通用语音提取方法,其特征在于,步骤S4包括:S4.1:对混合录音特征进行归一化处理;S4.2:利用1
×
1卷...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。