一种鲁棒的伪造语音算法的溯源方法及装置制造方法及图纸

技术编号:39242117 阅读:12 留言:0更新日期:2023-10-30 11:54
本发明专利技术提供一种鲁棒的伪造语音算法的溯源方法及装置。该方法包括:利用训练数据集训练针对伪造语音算法的分类器;利用训练好的分类器处理所述训练数据集,得到所述分类器中的隐层针对所述各条伪造语音生成的隐层特征;利用训练好的分类器处理待检测的目标语音信号,得到所述分类器中的隐层生成的目标隐层特征和所述分类器的输出层输出的目标分类结果;分别计算所述目标隐层特征与若干隐层特征的距离,并确定其中的最短距离;当所述最短距离大于或等于预设阈值时,将所述目标分类结果作为所述目标语音信号的最终分类结果。如此,可以使用声码器生成伪造算法识别的训练集。引入最邻近节点算法,通过最邻近距离的分布区分训练集中不存在的分布外数据。集中不存在的分布外数据。集中不存在的分布外数据。

【技术实现步骤摘要】
一种鲁棒的伪造语音算法的溯源方法及装置


[0001]本说明书一个或多个实施例涉及语音处理
,尤其涉及一种鲁棒的伪造语音算法的溯源方法及装置。

技术介绍

[0002]随着技术的不断进步,语音技术得到了广泛的应用,例如语音识别、语音合成等。伴随着深度学习的蓬勃发展,在语音领域的许多任务引入了人工智能技术以提升性能。然而,语音技术在发展的过程中,也引入了一些挑战。其中一个重要的挑战是语音欺骗攻击,即使用语音合成、语音转换、拼接等技术制作虚假的语音片段,以达成欺骗自动说话人识别系统、或欺骗人们散播谣言等目的。
[0003]为了应对语音欺骗攻击的重大威胁,近年来针对语音欺骗攻击的伪造语音检测系统的发展备受关注。然而虽然许多伪造语音检测方法被提出,但是只有极少数被实施。现有的伪造语音检测系统无法分辨制造伪造语音的算法。同时,由于深度神经网络过度自信的问题,当前的伪造语音检测算法无法对训练集中未出现过的分布外的数据进行剔除,而是会高置信度将其分为已知类别,难以得到人们的信赖。

技术实现思路

[0004]本专利技术描述一种鲁棒的伪造语音算法的溯源方法及装置,可以解决上述技术问题。
[0005]根据第一方面,提供一种鲁棒的伪造语音算法的溯源方法,该方法包括:获取训练数据集,其中包括多条伪造语音以及各条伪造语音的伪造算法类别标签;利用所述训练数据集训练针对伪造语音算法的分类器;利用训练好的分类器处理所述训练数据集,得到所述分类器中的隐层针对所述各条伪造语音生成的隐层特征,归入隐层特征集;利用训练好的分类器处理待检测的目标语音信号,得到所述分类器中的隐层生成的目标隐层特征和所述分类器的输出层输出的目标分类结果;分别计算所述目标隐层特征与若干隐层特征的距离,并确定出其中的最短距离;所述若干隐层特征属于所述隐层特征集,且对应的伪造算法类别标签与所述目标分类结果一致;当所述最短距离大于或等于预设阈值时,将所述目标分类结果作为所述目标语音信号的最终分类结果。
[0006]在一个实施例中,所述获取训练数据集,包括:获取真实语音的梅尔谱特征;将所述梅尔谱特征输入多个不同的声码器,对应得到多条伪造语音,为其中各条伪造语音添加指示其所对应声码器类型的伪造算法类别标签后,归入所述训练数据集。
[0007]在一个实施例中,所述获取真实语音的梅尔谱特征,包括:获取真实语音,针对获取的所述真实语音进行预处理,其中所述预处理包括对所述真实语音进行预加重、分帧和加窗;基于所述预处理后的所述真实语音,进行短时傅里叶变换,确定对应于所述真实语音的时频特征。基于所述真实语音的时频特征,利用梅尔滤波器组进行滤波,确定所述真实语音的梅尔谱特征。
[0008]在一个实施例中,所述多个不同的声码器基于深度神经网络实现。
[0009]在一个实施例中,所述目标隐层特征与若干隐层特征的距离采用最邻近节点算法实现。
[0010]根据第二方面,提供一种鲁棒的伪造语音算法的溯源装置,该装置包括:训练数据集获取模块,用于获取训练数据集,其中包括多条伪造语音以及各条伪造语音的伪造算法类别标签;分类器训练模块,配置为利用所述训练数据集训练针对伪造语音算法的分类器;隐层特征获取模块,配置为利用训练好的分类器处理所述训练数据集,得到所述分类器中的隐层针对所述各条伪造语音生成的隐层特征,归入隐层特征集;
[0011]目标隐层特征生成模块,配置为利用训练好的分类器处理待检测的目标语音信号,得到所述分类器中的隐层生成的目标隐层特征和所述分类器的输出层输出的目标分类结果;邻近距离确定模块,配置为分别计算所述目标隐层特征与若干隐层特征的距离,并确定出其中的最短距离;所述若干隐层特征属于所述隐层特征集,且对应的伪造算法类别标签与所述目标分类结果一致;分类结果确定模块,配置为当所述最短距离大于或等于预设阈值时,将所述目标分类结果作为所述目标语音信号的最终分类结果。
[0012]在一个实施例中,所述训练数据集获取模块包括:获取真实语音的梅尔谱特征;将所述梅尔谱特征输入多个不同的声码器,对应得到多条伪造语音,为其中各条伪造语音添加指示其所对应声码器类型的伪造算法类别标签后,归入所述训练数据集。
[0013]在一个实施例中,所述多个不同的声码器基于深度神经网络实现。
[0014]在一个实施例中,所述获取真实语音的梅尔谱特征,包括:获取真实语音,针对获取的所述真实语音进行预处理,其中所述预处理包括对所述真实语音进行预加重、分帧和加窗;基于所述预处理后的所述真实语音,进行短时傅里叶变换,确定对应于所述真实语音的时频特征;基于所述真实语音的时频特征,利用梅尔滤波器组进行滤波,确定所述真实语音的梅尔谱特征。
[0015]在本说明书实施例提供的上述方法和装置中,利用了语音合成过程中声码器组件在时频特征上所引入的特定伪影,利用声码器上采样重建的过程代替完整的伪造语音生成流程以生成不同伪造算法的语音,以构建伪造语音算法识别的训练集。并引入了自监督预训练特征提取器,利用大规模的无标签数据获得更好的时频表示。同时,引入了最邻近节点算法,根据距离对分布内和分布外的数据进行排序,以区分训练集中未见过的分布外数据,削弱深度神经声码器过度自信的问题,使得伪造语音分类算法更加健壮,且结构简单,可移植性好。解决了当前伪造语音检测系统无法分辨制造伪造语音的算法,并且无法有效剔除训练集中未出现的分布外数据,在实际应用场景中泛化性较差,难以实际部署的问题。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0017]图1示出本申请实施例提供的训练数据集获取的流程示意图;
[0018]图2示出本申请实施例提供的一种鲁棒的伪造语音算法的溯源方法的流程示意
图;
[0019]图3示出本申请实施例提供的隐层特征提取过程的示意图;
[0020]图4示出本申请实施例提供的伪造算法识别训练过程示意图;
[0021]图5示出本说明书实施例提供的一种鲁棒的伪造语音算法的溯源装置的结构示意图。
具体实施方式
[0022]下面结合附图,对本说明书提供的方案进行描述。
[0023]为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。
[0024]在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
[0025]在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种鲁棒的伪造语音算法的溯源方法,其特征在于,所述方法包括:获取训练数据集,其中包括多条伪造语音以及各条伪造语音的伪造算法类别标签;利用所述训练数据集训练针对伪造语音算法的分类器;利用训练好的分类器处理所述训练数据集,得到所述分类器中的隐层针对所述各条伪造语音生成的隐层特征,归入隐层特征集;利用训练好的分类器处理待检测的目标语音信号,得到所述分类器中的隐层生成的目标隐层特征和所述分类器的输出层输出的目标分类结果;分别计算所述目标隐层特征与若干隐层特征的距离,并确定出其中的最短距离;所述若干隐层特征属于所述隐层特征集,且对应的伪造算法类别标签与所述目标分类结果一致;当所述最短距离大于或等于预设阈值时,将所述目标分类结果作为所述目标语音信号的最终分类结果。2.根据权利要求1所述的方法,其中,所述获取训练数据集,包括:获取真实语音的梅尔谱特征;将所述梅尔谱特征输入多个不同的声码器,对应得到多条伪造语音,为其中各条伪造语音添加指示其所对应声码器类型的伪造算法类别标签后,归入所述训练数据集。3.根据权利要求2所述的方法,其特征在于,所述获取真实语音的梅尔谱特征,包括:获取真实语音,针对获取的所述真实语音进行预处理,其中所述预处理包括对所述真实语音进行预加重、分帧和加窗;基于所述预处理后的所述真实语音,进行短时傅里叶变换,确定对应于所述真实语音的时频特征;基于所述真实语音的时频特征,利用梅尔滤波器组进行滤波,确定所述真实语音的梅尔谱特征。4.根据权利要求2所述的方法,其特征在于,所述多个不同的声码器基于深度神经网络实现。5.根据权利要求1所述的方法,其特征在于,所述目标隐层特征与若干隐层特征的距离采用最邻近节点算法实现。6.根据权利要求1所述的方法,其特征在于,所述利用训练好的分类器处理所述训练数据集之前还包括:使用自监督预训练语音特征...

【专利技术属性】
技术研发人员:王文超陆镜泽张鹏远陈树丽
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1