当前位置: 首页 > 专利查询>大连大学专利>正文

基于帧偏移注意力和多级分类的片段级合成语音检测方法及系统技术方案

技术编号:44565505 阅读:33 留言:0更新日期:2025-03-11 14:23
本发明专利技术公开了基于帧偏移注意力和多级分类的片段级合成语音检测方法及系统,涉及语音合成技术领域,包括:获取语音特征并进行初步处理;通过帧偏移注意力机制得到关注语音帧之间相似性的FOA特征;对FOA特征进行提取得到多尺度语音特征;通过片段级分类网络和话语级分类网络获取多尺度语音特征中每个片段的检测结果和整条语音的检测结果。本发明专利技术利用余弦相似度来得到每个语音帧特征与自身、左右邻居之间的余弦相似度值,从而衡量特征向量之间的相似度。片段级分类网络更侧重于片段信息;而话语级分类网络旨在判断整条语音是否包含合成片段,更注重的是全局性。使模型综合考虑片段信息和整句信息,获得更加准确的分类结果。

【技术实现步骤摘要】

本专利技术涉及语音合成,具体涉及基于帧偏移注意力和多级分类的片段级合成语音检测方法及系统


技术介绍

1、自动说话人验证系统(asv)已经被广泛应用于银行、智能家居等身份识别任务中。不法分子会通过语音合成、语音转换以及重放等技术获得合成语音对asv系统进行攻击。因此,研究人员会通过合成语音检测系统抵御这些攻击。但是,目前合成语音检测的研究大多是针对合成的完整音频信号,而忽略了将合成或转换的语音片段嵌入到真实语音中的情况。这种情况被称为“部分欺骗语音”攻击或“片段级合成语音”攻击。攻击者可以通过更改一句话中的时间、地点等单个字或词以达到改变语义的目的。同时,因为片段级合成语音中包含大量的真实语音片段,使得片段级合成语音更难以被检测。因此,设计一个针对片段级合成语音进行检测的模型十分重要。

2、现有的片段级合成语音检测主要通过已有的话语级合成语音检测模型来完成。然而,将传统的话语级合成语音检测的方法用于片段级合成语音检测,就是将所有片段特征融合后获得一个话语特征然后进行分类。但是,片段级合成语音中包含大量的真实语音片段,在训练时反向传播会根据话语级本文档来自技高网...

【技术保护点】

1.基于帧偏移注意力和多级分类的片段级合成语音检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于帧偏移注意力和多级分类的片段级合成语音检测方法,其特征在于,获取语音特征并进行初步处理,具体为:采用预训练模型Wav2Vec2.0提取语音特征,并通过嵌入模块对语音特征进行初步处理。

3.根据权利要求1所述基于帧偏移注意力和多级分类的片段级合成语音检测方法,其特征在于,通过帧偏移注意力机制得到关注语音帧之间相似性的FOA特征,具体为:

4.根据权利要求3所述基于帧偏移注意力和多级分类的片段级合成语音检测方法,其特征在于,在拼接局部注意力权重at...

【技术特征摘要】

1.基于帧偏移注意力和多级分类的片段级合成语音检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于帧偏移注意力和多级分类的片段级合成语音检测方法,其特征在于,获取语音特征并进行初步处理,具体为:采用预训练模型wav2vec2.0提取语音特征,并通过嵌入模块对语音特征进行初步处理。

3.根据权利要求1所述基于帧偏移注意力和多级分类的片段级合成语音检测方法,其特征在于,通过帧偏移注意力机制得到关注语音帧之间相似性的foa特征,具体为:

4.根据权利要求3所述基于帧偏移注意力和多级分类的片段级合成语音检测方法,其特征在于,在拼接局部注意力权重atti过程中,首先将局部注意力权重atti沿通道维度进行拼接获得中间矩阵att,其次创建一个与整条语音的原始特征x形状相同的全零矩阵a,最后将得中间矩阵att分别放置在全零矩阵a中的对应位置获得注意力权重矩阵a;

5.根据权利要求1所述基于帧偏移注意力和多级分类的片段级合成语音检测方法,其特征在于,对foa特征进行提取得到多尺度语音特征,具体为:

6.根据权利要求1所述基于帧偏移注...

【专利技术属性】
技术研发人员:赵腊生王晗
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1