用于短语音说话人确认的生成对抗网络优化方法及系统技术方案

技术编号:33559509 阅读:71 留言:0更新日期:2022-05-26 22:56
本说明书实施例提供了一种用于短语音说话人确认的生成对抗网络优化方法及系统,其中,方法包括:获取多对长、短语音声学特征样本;将短语音声学特征样本输入生成器进行拼接,得到生成的伪长语音声学特征样本;将伪长语音声学特征样本与获取的所述长语音声学特征样本分别输入说话人确认模型,通过说话人确认模型输出伪身份特征样本和真身份特征样本;将真身份特征样本和伪身份特征样本输入鉴别器和分类器,通过损失函数计算所述鉴别器和分类器的损失,并通过反向传播优化更新鉴别器、分类器和生成器的参数。以解决说话人确认系统随着语音时长变短判别效果变差的问题。随着语音时长变短判别效果变差的问题。随着语音时长变短判别效果变差的问题。

【技术实现步骤摘要】
用于短语音说话人确认的生成对抗网络优化方法及系统


[0001]本文件涉及语音处理
,尤其涉及一种基于生成对抗网络的短语音说话人确认优化方法及系统。

技术介绍

[0002]声纹识别是通过语音确定说话人身份的任务,说话人确认是声纹识别研究的一个分支。说话人确认模型可分为端到端的模型和分阶段的模型,现如今研究最多、使用最广泛的是分阶段的模型。分阶段的说话人确认分成前端和后端两个阶段,前端用于说话人身份特征提取,将说话人语音数据生成一个矢量,后端用于对生成的一对矢量进行相似性计算从而判断两段语音是否属于同一说话人。
[0003]生成对抗网络一般包含一个生成器和鉴别器,两者进行交替训练,生成器的目标是尽量生成好的数据能够骗过鉴别器,鉴别器又可以通过生成的数据提升自己的鉴别能力,两者相互制衡相互促进,最终获得一个较好的生成器。
[0004]实验表明,说话人确认系统的性能随语音时长减少而降低,现阶段得到的较优的效果都是基于尽可能长的语音测试而来的但由于现实中很难获取到足够长的语音数据,所以在实际使用中系统的效果比预期要差很多,因此,优化本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于短语音说话人确认的生成对抗网络优化方法,其特征在于,包括:S1.获取多对长、短语音声学特征样本;S2.将短语音声学特征样本输入生成器进行拼接,得到生成的伪长语音声学特征样本;S3.将伪长语音声学特征样本与获取的所述长语音声学特征样本分别输入说话人确认模型,通过说话人确认模型输出伪身份特征样本和真身份特征样本;S4.将真身份特征样本和伪身份特征样本输入鉴别器和分类器,通过损失函数计算所述鉴别器和分类器的损失,并通过反向传播优化更新鉴别器、分类器和生成器的参数。2.根据权利要求1所述的方法,其特征在于,步骤S2所述方法具体包括:将短语音声学特征样本输入生成器,经线性变换生成额外的声学特征样本;将短语音声学特征样本和额外的声学特征样本进行拼接,生成伪长语音声学特征样本;对所述伪长语音声学特征样本进行倒谱均值归一化处理。3.根据权利要求1所述的方法,其特征在于,步骤S4所述方法具体包括:将真身份特征样本和伪身份特征样本输入鉴别器和分类器,通过损失函数计算所述鉴别器和分类器的损失,通过反向传播更新鉴别器和分类器的参数;将伪身份特征样本送入鉴别器和分类器,在送入鉴别器时,将伪的身份特征样本标签伪造为真,通过损失函数计算所述鉴别器和分类器的损失,通过反向传播更新生成器的参数。4.根据权利要求1所述的方法,其特征在于,所述说话人确认模型为训练好的说话人确认模型,包括:基于Resnet的x

vector模型、E

TDNN模型和ECAPA

TDNN模型。5.根据权利要求2所述的方法,其特征在于,所述额外的声学特征样本的长度与短语音声学特征样本的长度相等;所述短语音声学特征样本的短语音为长度为1秒至3秒的语音。6.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:张志伟杨爽刘天马佰超杨可林解晓敏
申请(专利权)人:国网山东省电力公司菏泽供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1