基于多模态大模型的模仿音频鉴别方法、装置和设备制造方法及图纸

技术编号：41400633 阅读：11 留言：0更新日期：2024-05-20 19:25

本发明专利技术实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备，应用于训练好的多模态大模型，多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型；通过将待鉴别音频输入到音频编码器中，获得音频特征；将音频特征输入到线性对齐层，获得对齐到文本模态的音频特征；将鉴伪音频的文本指令和文本模态的音频特征进行拼接，获得拼接特征；将拼接特征输入到预训练的大语言模型中，输出音频鉴别结果和鉴别原因；音频鉴别结果为真，表示音频是被模仿对象的真实音频；音频鉴别结果为假，表示音频是模仿对象针对被模仿对象所进行的模仿音频；鉴别原因是指做出所述音频鉴别结果的依据信息；实现了模仿音频的精确、快速检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别领域，尤其涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备。

技术介绍

1、虚拟音频检测是一个旨在通过机器学习技术将真正语音与假语音区分开来的任务。传统的音频鉴别主要是集中在文本转语音和语音转化技术，将语音合成和语音转化的语音作为虚假的语音，但对真实的人的模仿语音的检测没有足够的重视，这就导致如果有人模仿其他人讲话，很可能会带来严重后果。

2、因此，亟需提供一种新的音频检测方法，能够区分出是被模仿者的真实语音，还是模仿者针对被模仿者所录制的模仿语音。

技术实现思路

1、本专利技术提供了一种基于多模态大模型的模仿音频鉴别方法、装置和设备，以解决无法检测音频是真实人的语音还是模仿语音的技术问题。

2、第一方面，本专利技术提供了一种基于多模态大模型的模仿音频鉴别方法，应用于训练好的多模态大模型，所述多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型；所述方法包括：将待鉴别音频输入到所述音频编码器中，获得音频特征；将所述音频特征输入到所述线性对齐层，获得对齐到文本模态的音频特征；将鉴伪音频的文本指令和所述文本模态的音频特征进行拼接，获得拼接特征；将所述拼接特征输入到所述预训练的大语言模型中，输出音频鉴别结果和鉴别原因；其中，所述音频鉴别结果为真，表示音频是被模仿对象的真实音频；所述音频鉴别结果为假，表示音频是模仿对象针对被模仿对象所进行的模仿音频；所述鉴别原因是指做出所述音频鉴别结果的依据信息。

3、在一些实施例中，所

4、在一些实施例中，所述预训练的大语言模型包括嵌入层、至少一个编码器和分类器；所述将人类输入标志符、鉴伪音频的文本指令、文本模态的音频特征和机器输出标志符依次拼接，获得拼接特征，包括：将所述人类输入标志符和鉴伪音频的文本指令进行拼接后输入到所述嵌入层中，获得指令特征；将所述机器输出标志符输入到所述嵌入层中，获得输出标志符特征；将所述指令特征、文本模态的音频特征和输出标志符特征进行拼接，获得拼接特征。

5、在一些实施例中，所述编码器依次包括预归一化层、自注意力层和前馈神经网络层；其中，所述自注意力层采用掩码注意力机制，所述自注意力层和前馈神经网络层之间残差连接和层归一化，所述层归一化为均方根归一化层。

6、在一些实施例中，所述前馈神经网络层中采用swiglu激活函数。

7、在一些实施例中，所述嵌入层还用于旋转嵌入特征位置编码。

8、在一些实施例中，在所述将待鉴别音频输入到所述音频编码器中，获得音频特征之前，还包括：获得样本音频集，所述样本音频集中的每个样本音频具有第一次标注信息，所述第一次标注信息至少包括样本音频真伪、模仿人信息、被模仿人信息；基于所述样本音频集确定样本训练集，所述样本训练集中的每个样品音频具有第二次标注信息，所述第二次标注信息至少包括样本音频真伪和样本鉴别原因；基于所述样本训练集对待训练的多模态大模型进行训练，获得所述训练好的多模态大模型。

9、第二方面，本专利技术实施例提供一种基于多模态大模型的模仿音频鉴别装置，应用于训练好的多模态大模型，所述多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型；所述装置包括：第一输入模块，用于将待鉴别音频输入到所述音频编码器中，获得音频特征；第二输入模块，用于将所述音频特征输入到所述线性对齐层，获得对齐到文本模态的音频特征；特征拼接模块，用于将鉴伪音频的文本指令和所述文本模态的音频特征进行拼接，获得拼接特征；音频鉴别模块，用于将所述拼接特征输入到所述预训练的大语言模型中，输出音频鉴别结果和鉴别原因；其中，所述音频鉴别结果为真，表示音频是被模仿对象的真实音频；所述音频鉴别结果为假，表示音频是模仿对象针对被模仿对象所进行的模仿音频；所述鉴别原因是指做出所述音频鉴别结果的依据信息。

10、第三方面，本专利技术提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现第一方面任一项所述的基于多模态大模型的模仿音频鉴别方法的步骤。

11、第四方面，本专利技术提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面任一项所述的基于多模态大模型的模仿音频鉴别方法的步骤。

12、本专利技术实施例提供的基于多模态大模型的模仿音频鉴别方法、装置和设备，应用于训练好的多模态大模型，所述多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型；

13、通过将待鉴别音频输入到所述音频编码器中，获得音频特征；将所述音频特征输入到所述线性对齐层，获得对齐到文本模态的音频特征；将鉴伪音频的文本指令和所述文本模态的音频特征进行拼接，获得拼接特征；将所述拼接特征输入到所述预训练的大语言模型中，输出音频鉴别结果和鉴别原因；其中，所述音频鉴别结果为真，表示音频是被模仿对象的真实音频；所述音频鉴别结果为假，表示音频是模仿对象针对被模仿对象所进行的模仿音频；所述鉴别原因是指做出所述音频鉴别结果的依据信息；通过该多模态大模型实现了对模仿人音频还是被模仿人音频的精确、快速检测。

本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的模仿音频鉴别方法，其特征在于，应用于训练好的多模态大模型，所述多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将鉴伪音频的文本指令和所述文本模态的音频特征进行拼接，获得拼接特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述预训练的大语言模型包括嵌入层、至少一个编码器和分类器；所述将人类输入标志符、鉴伪音频的文本指令、文本模态的音频特征和机器输出标志符依次拼接，获得拼接特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述编码器依次包括预归一化层、自注意力层和前馈神经网络层；

5.根据权利要求4所述的方法，其特征在于，所述前馈神经网络层采用SwiGLU激活函数。

6.根据权利要求3-5任一项所述的方法，其特征在于，所述嵌入层还用于旋转嵌入位置编码。

7.根据权利要求1-5任一项所述的方法，其特征在于，在所述将待鉴别音频输入到所述音频编码器中，获得音频特征之前，还包括：

8.一种基于多模

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于多模态大模型的模仿音频鉴别方法的步骤。

...

【技术特征摘要】

2.根据权利要求1所述的方法，其特征在于，所述将鉴伪音频的文本指令和所述文本模态的音频特征进行拼接，获得拼接特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述编码器依次包括预归一化层、自注意力层和前馈神经网络层；

5.根据权利要求4所述的方法，其特征在于，所述前馈神经网络层采用swiglu激活函数。<...

【专利技术属性】
技术研发人员：易江燕，顾浩，陶建华，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人