伪造语音检测模型的训练方法、伪造语音检测方法及设备技术

技术编号：42128545 阅读：19 留言：0更新日期：2024-07-25 00:44

本申请公开一种伪造语音检测模型的训练方法、伪造语音检测方法及设备，属于多媒体安全技术领域。该方法包括：获取多个音频样本文件；从多个音频样本文件的文本数据和音频数据中提取多模态样本特征，对多模态样本特征进行特征融合处理，得到各个音频样本文件对应的融合特征；使用多个音频样本文件对应的融合特征对预先构建的自蒸馏声学模型进行迭代训练，得到伪造语音检测模型。这样，能够使自蒸馏声学模型充分挖掘不同模态特征之间的相关性，提高模型的表达能力和泛化能力，从而有利于提高伪造语音检测模型对伪造语音检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及多媒体安全，尤其涉及一种伪造语音检测模型的训练方法、伪造语音检测方法及设备。

技术介绍

1、伪造语音通常指的是利用人工智能技术和语音合成技术来生成虚假的语音内容，使其听起来像是真实的人类语音。这种技术可以用于制作假冒电话、虚假广播、欺骗性信息传播等方面。通过伪造语音技术，可以生成具有特定语调、音色和说话风格的语音内容，以实现一些不端目的。

2、近年来随着语音合成技术的发展，伪造语音的水平也逐渐提高，使得识别真实语音和伪造语音之间的区别变得更加困难。相关技术中，通过提取音频文件的不同模态下的特征信息，使用各个模态下的特征信息进行模型训练，然而不同模态特征之间的关联信息无法得到充分利用，使得模型的表达能力和泛化能力较弱，伪造语音检测的精确度不够高。

技术实现思路

1、本申请实施例提供了一种伪造语音检测模型的训练方法、伪造语音检测方法及设备，以至少解决相关技术无法充分利用不同模态特征之间的关联信息，使得模型的表达能力和泛化能力较弱的问题。

2、为了解决上述技术问题，本申请是这样实现的：

3、第一方面，本申请实施例提供了一种伪造语音检测模型的训练方法，包括：获取多个音频样本文件，所述音频样本文件中包括文本数据和音频数据；从多个所述音频样本文件的文本数据和音频数据中提取多模态样本特征，对所述多模态样本特征进行特征融合处理，得到各个所述音频样本文件对应的融合特征；使用多个所述音频样本文件对应的融合特征对预先构建的自蒸馏声学模型进行迭代训练，在

4、第二方面，本申请实施例提供了一种伪造语音检测方法，包括：获取输入的目标音频文件，所述目标音频文件中包括目标文本数据和目标音频数据；从所述目标文本数据和目标音频数据中提取多模态特征，对所述多模态特征进行特征融合处理，得到目标融合特征；通过将所述目标融合特征输入至伪造语音检测模型中获取所述目标音频文件的类别标签；其中，所述伪造语音检测模型是根据第一方面所述的伪造语音检测模型的训练方法训练得到的；根据所述类别标签，确定所述目标音频文件的真伪。

5、第三方面，本申请实施例提供了一种伪造语音检测模型的训练装置，包括：样本获取模块，用于获取多个音频样本文件，所述音频样本文件中包括文本数据和音频数据；特征融合模块，用于从多个所述音频样本文件的文本数据和音频数据中提取多模态样本特征，对所述多模态样本特征进行特征融合处理，得到各个所述音频样本文件对应的融合特征；模型训练模块，用于使用多个所述音频样本文件对应的融合特征对预先构建的自蒸馏声学模型进行迭代训练，在每次迭代训练中，对所述融合特征进行多视角信息融合获取目标声学特征；将所述目标声学特征输入至教师模型得到第一类别标签，将目标声学特征输入至学生模型得到第二类别标签；根据所述第一类别标签、第二类别标签，以及所述自蒸馏声学模型的多个损失函数，确定模型检测损失值；基于所述模型检测损失值更新迭代所述学生模型，直至达到预设的收敛条件，将收敛之后的自蒸馏声学模型确定为伪造语音检测模型。

6、第四方面，本申请实施例提供了一种伪造语音检测装置，包括：文件获取模块，用于获取输入的目标音频文件，所述目标音频文件中包括目标文本数据和目标音频数据；特征提取模块，用于从所述目标文本数据和目标音频数据中提取多模态特征，对所述多模态特征进行特征融合处理，得到目标融合特征；类别确定模块，用于通过将所述目标融合特征输入至伪造语音检测模型中获取所述目标音频文件的类别标签；其中，所述伪造语音检测模型是根据上述第三方面所述的伪造语音检测模型的训练装置训练得到的；语音检测模块，用于根据所述类别标签，确定所述目标音频文件的真伪。

7、第五方面，本申请实施例提供了一种电子设备，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上述第一方面所述的方法的步骤。

8、第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上述第一方面所述的方法的步骤。

9、第七方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如上述第一方面所述的方法的步骤。

10、在本申请实施例中，获取多个音频样本文件；从多个音频样本文件的文本数据和音频数据中提取多模态样本特征，对多模态样本特征进行特征融合处理，得到各个音频样本文件对应的多模态融合特征；使用多个音频样本文件对应的多模态融合特征对预先构建的自蒸馏声学模型进行迭代训练，在每次迭代训练中，对多模态样本特征进行多视角信息融合获取目标声学特征；将目标声学特征输入至教师模型得到第一类别标签，将目标声学特征输入至学生模型得到第二类别标签；根据所述第一类别标签、第二类别标签，以及自蒸馏声学模型的多个损失函数，确定模型检测损失值；基于模型检测损失值更新迭代学生模型，直至达到预设的收敛条件，将收敛之后的自蒸馏声学模型确定为伪造语音检测模型。这样，通过提取音频样本文件的多模态样本特征，并对多模态样本特征进行特征融合，使用特征融合后的融合特征对自蒸馏声学模型进行迭代训练，可以使自蒸馏声学模型充分挖掘不同模态特征之间的相关性，提高模型的表达能力和泛化能力，从而有利于提高伪造语音检测模型对伪造语音检测的准确率。

11、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

本文档来自技高网...

【技术保护点】

1.一种伪造语音检测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从多个所述音频样本文件的文本数据和音频数据中提取多模态样本特征，对所述多模态样本特征进行特征融合处理，得到各个所述音频样本文件对应的多模态融合特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述损失函数包括第一损失函数、第二损失函数和第三损失函数；

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一类别标签、第二类别标签，以及所述自蒸馏声学模型的多个损失函数，确定模型检测损失值，包括：

5.一种伪造语音检测方法，其特征在于，包括：

6.一种伪造语音检测模型的训练装置，其特征在于，包括：

7.一种伪造语音检测装置，其特征在于，包括：

8.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5任一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读

10.一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至5任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种伪造语音检测模型的训练方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述损失函数包括第一损失函数、第二损失函数和第三损失函数；

5.一种伪造语音检测方法，其特征在于，包括：

6.一种伪造语音检测模型的训练装置，其特征在...

【专利技术属性】
技术研发人员：曹雪峰，张岩，刘妮妮，吴扬峰，姜锦涛，
申请(专利权)人：中移雄安信息通信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人