【技术实现步骤摘要】
本专利技术属于语音检测,尤其涉及一种基于多中心单分类的自监督语音鉴伪训练方法及系统。
技术介绍
1、现有技术提供一种基于单分类多尺度残差网络的语音鉴伪方法及系统,基于自监督学习的语音鉴伪方法。现有技术提供一种多中心单分类方法融合samo:speakerattractormulti-centerone-classlearning forvoiceanti-spoofing;再者现有技术提供一种基于自监督的前端模型,即automaticspeechrecognition(asr)方法whisper。whisper训练所用的大型且多样化的语音数据有助于提升模型泛化性。
2、但是存在以下问题:
3、(1)现有的自监督学习前端提取特征技术将模型输出的语音多层级特征进行叠加,未考虑到不同层级特征的特点,导致语音特征表示鲁棒性较差。
4、(2)单分类学习在嵌入空间上将真实语音压缩为一个聚类,同时将合成语音远离这个聚类,聚类外均归为合成语音,但由于不同说话人的音质,语音特征存在差异,真实语音在嵌入空间上形成了多个聚类
...【技术保护点】
1.一种基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,该方法用于真实场景下的说话人语音鉴伪的训练和推理,具体包括以下步骤:
2.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤S1中,对语音数据进行处理,包括:对输入的语音进增加混响、卷积噪音、背景音增加语音泛化性,对语音进行固定长度随机分帧切割。
3.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤S2中,使用预训练自监督前端网络提取语音特征,包括:
4.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练
...【技术特征摘要】
1.一种基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,该方法用于真实场景下的说话人语音鉴伪的训练和推理,具体包括以下步骤:
2.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤s1中,对语音数据进行处理,包括:对输入的语音进增加混响、卷积噪音、背景音增加语音泛化性,对语音进行固定长度随机分帧切割。
3.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤s2中,使用预训练自监督前端网络提取语音特征,包括:
4.根据权利要求1所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,在步骤s4中,对多中心单分类的损失模型以及鉴伪网络进行训练优化,包括:将融合后的语音特征输入到鉴伪网络中,通过结合多尺度残差网络对特征进行训练,使用senet对特征间的相关性建模,强化重要特征,得到全局特征向量输入到多中心单分类的损失模型中,并进行训练迭代优化,反馈优化多中心单分类的损失模型权重,嵌入空间和说话人中心。
5.根据权利要求4所述的基于多中心单分类的自监督语音鉴伪训练方法,其特征在于,多中心单分类的损失模型的损失网络方法包括:将真实语音在嵌入空间上压缩为多个聚类形成多个说话人中心,聚类是训练期间基于说话人身份形成,将虚假语音在嵌入空...
【专利技术属性】
技术研发人员:曹睿,沈宜,郭先会,马军,周伟中,邹严,郭兴文,
申请(专利权)人:深圳市网联安瑞网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。