一种基于多中心单分类的自监督语音鉴伪训练方法及系统技术方案

技术编号:40517307 阅读:34 留言:0更新日期:2024-03-01 13:34
本发明专利技术属于语音检测技术领域,公开了一种基于多中心单分类的自监督语音鉴伪训练方法及系统。该方法包括:将处理后的语音数据输入到特征提取模块,使用预训练自监督前端网络提取语音特征;将预训练的自监督前端提取到的语音特征进融合;将融合后的语音特征输入到鉴伪网络中,加入多中心单分类的损失模型,并对多中心单分类的损失模型以及鉴伪网络进行训练优化;利用推理过程使用阈值判断语音的真伪。本发明专利技术结合不同特征说话人在嵌入空间上的不同位置,引入多中心的嵌入空间进行训练,解决单中心嵌入空间方法鉴伪导致的错误率高问题,同时添加多种噪音和混响模拟真实环境,有效解决语音鉴伪在真实环境下准确率较低,泛化性差的问题。

【技术实现步骤摘要】

本专利技术属于语音检测,尤其涉及一种基于多中心单分类的自监督语音鉴伪训练方法及系统


技术介绍

1、现有技术提供一种基于单分类多尺度残差网络的语音鉴伪方法及系统,基于自监督学习的语音鉴伪方法。现有技术提供一种多中心单分类方法融合samo:speakerattractormulti-centerone-classlearning forvoiceanti-spoofing;再者现有技术提供一种基于自监督的前端模型,即automaticspeechrecognition(asr)方法whisper。whisper训练所用的大型且多样化的语音数据有助于提升模型泛化性。

2、但是存在以下问题:

3、(1)现有的自监督学习前端提取特征技术将模型输出的语音多层级特征进行叠加,未考虑到不同层级特征的特点,导致语音特征表示鲁棒性较差。

4、(2)单分类学习在嵌入空间上将真实语音压缩为一个聚类,同时将合成语音远离这个聚类,聚类外均归为合成语音,但由于不同说话人的音质,语音特征存在差异,真实语音在嵌入空间上形成了多个聚类,将其简单的分为一个本文档来自技高网...

【技术保护点】

1.一种基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,该方法用于真实场景下的说话人语音鉴伪的训练和推理,具体包括以下步骤:

2.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤S1中,对语音数据进行处理,包括:对输入的语音进增加混响、卷积噪音、背景音增加语音泛化性,对语音进行固定长度随机分帧切割。

3.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤S2中,使用预训练自监督前端网络提取语音特征,包括:

4.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在...

【技术特征摘要】

1.一种基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,该方法用于真实场景下的说话人语音鉴伪的训练和推理,具体包括以下步骤:

2.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤s1中,对语音数据进行处理,包括:对输入的语音进增加混响、卷积噪音、背景音增加语音泛化性,对语音进行固定长度随机分帧切割。

3.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤s2中,使用预训练自监督前端网络提取语音特征,包括:

4.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤s4中,对多中心单分类的损失模型以及鉴伪网络进行训练优化,包括:将融合后的语音特征输入到鉴伪网络中,通过结合多尺度残差网络对特征进行训练,使用senet对特征间的相关性建模,强化重要特征,得到全局特征向量输入到多中心单分类的损失模型中,并进行训练迭代优化,反馈优化多中心单分类的损失模型权重,嵌入空间和说话人中心。

5.根据权利要求4所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,多中心单分类的损失模型的损失网络方法包括:将真实语音在嵌入空间上压缩为多个聚类形成多个说话人中心,聚类是训练期间基于说话人身份形成,将虚假语音在嵌入空...

【专利技术属性】
技术研发人员:曹睿沈宜郭先会马军周伟中邹严郭兴文
申请(专利权)人:深圳市网联安瑞网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1