一种大模型对抗样本的生成方法技术

技术编号:38770887 阅读:13 留言:0更新日期:2023-09-10 10:44
本发明专利技术公开了一种大模型对抗样本的生成方法,该大模型对抗样本的生成方法包括以下步骤:采用生成式大模型,将音频信息和文本信息编码为中间特征,解码还原为音频文件;引入循环损失计算,随机替换掉音频部分信息,达到音频各部分信息解耦;利用强化学习,采用马尔科夫决策过程,减少了人工标注的工作量。该大模型对抗样本的生成方法引入循环损失,对中间特征各部分信息解耦,提升模型性能且对各部分可控;通过训练生成式大模型,降低对数据质量的要求;通过强化学习系统,根据输入的文本信息自动的选择恰当的情感信息等,做到了在数据层面无需额外情感标注,且合成后的结果对于情感的选择、强烈程度更加自然平滑。强烈程度更加自然平滑。强烈程度更加自然平滑。

【技术实现步骤摘要】
一种大模型对抗样本的生成方法


[0001]本专利技术涉及深度学习
,具体地,涉及一种大模型对抗样本的生成方法。

技术介绍

[0002]强化学习(Reinforcement Learning)是一种机器学习的分支,它关注的是智能体(agent)在环境中执行操作(动作),以获得最大的累积奖励(reward)。在强化学习中,智能体不断与环境进行交互,根据其行动的结果获得反馈(奖励或惩罚),并尝试在未来的操作中优化累积奖励的总和。与监督学习不同,强化学习中没有提供明确的标签或正确答案,而是需要智能体在学习的过程中通过试错来找到最优策略;循环损失(Cycle loss)是一种常用于图像生成和翻译等任务的损失函数,它的基本思想是将一段数据通过一个转换器进行转换,然后再将转换后的数据再次通过一个反转换器转换回来,要求这个反转换后的结果与原始数据尽可能地接近。循环一致性损失的目的是保证转换过程是可逆的,防止信息的丢失;具体来说,在图像翻译任务中,需要将一种语言的文本转换成另一种语言的图像。循环一致性损失的作用是,将翻译后的图像再次翻译回原始语言的文本,要求得到的文本尽可能地与原始文本相同。这样一来,我们就可以通过反复进行翻译和反翻译来优化模型,使得翻译后的图像更加准确地表达原始文本所包含的信息。生成式大模型(Generative Large

scale Models)是指那些基于大规模数据集进行无监督学习,可以生成新的数据或样本的深度学习模型,通常其训练需要大量计算资源、时间和数据。它们具有强大的生成能力和表达能力,可以生成高质量的图像、音频、自然语言文本等内容,处理复杂的输入和输出,达到比小模型更好的性能。
[0003]音频对抗样本是通过神经网络生成的、能使深度合成音频检测模型无法有效判别真伪的音频文件,循环损失是一种随机替换部分中间特征后先进行解码,再重新编码,将重新得到的结果与之前替换后的中间特征进行的损失计算,目前的音频伪造文件需要大量的高质量的目标人物训练数据和额外的训练,由于过去的方案普遍将音频编码为中间特征后再进行解码还原为wav格式,其各部分代表的含义往往没有人关注,难以单独提升模型某一部分的效果,现有技术中的信息耦合、数据质量要求高、有监督训练、需要额外微调;现有的大部分音频生成模型,将数据输入编码器后得到的中间特征,往往既包含内容信息也包含说话人音色、情感信息等,多种信息互相耦合难以明确编码器到底干了什么,难以对模型进行有针对的提升,而且目前的音频生成模型需要大量的高质量数据,这需要专业的录音环境和设备,这造成了数据获取难度的增加。训练过程中任何包含噪声的低质量数据都会对模型造成影响,生成效果显著下降,因此那些易于获得的数据比如说网络音视频等通常不能使用,如果我们需要添加情感信息时,通常的操作是人工标注数据,根据不同情感的音频数据对其对应的文本进行标注。如何分类通常过于主观且其情感的强烈程度难以控制,当模型训练好后,如果需要进行未见说话人的合成,模型需要进行微调,具体来说就是用少部分目标人的高质量数据对模型再进行少量训练。因此,亟需设计一种强化学习联合循环损失的大模型对抗样本生成方法。

技术实现思路

[0004]本专利技术的目的在于提供一种大模型对抗样本的生成方法,通过添加循环损失,将模型编码器得到的中间特征的所包含的各种信息进行解耦,显著的提高模型效果;通过强化学习使得模型自主的选择恰当的韵律信息、情感信息等。使得模型训练可以不在需要有标签的数据,无需人工标注,通过构建生成式大模型,利用其大数据量、多计算的特点,显著降低对数据质量的要求,且在生成过程中利用其强大的学习能力使得对于未见说话人不需要额外的微调。
[0005]为了实现上述目的,本专利技术的技术方案如下:
[0006]本专利技术提供了一种大模型对抗样本的生成方法,包括以下步骤:
[0007]S1.采用生成式大模型,将音频信息和文本信息编码为中间特征,解码还原为音频文件;
[0008]S2.引入循环损失计算,随机替换掉音频部分信息,达到音频各部分信息解耦;
[0009]S3.利用强化学习,采用马尔科夫决策过程,减少了人工标注的工作量。
[0010]进一步的,其中S1包括以下步骤:
[0011]S11.将文本信息输入到文本编码器中,在文本编码器中编码为词嵌入向量;
[0012]S12.将音频信息采取多个音频编码器进行分别提取,编码为隐空间编码;
[0013]S13.采用生成式大模型的主体部分将音频信息和文本信息编码为中间特征;
[0014]S14.用开源音频编解码模型的解码器将其解码还原为对抗样本音频。
[0015]进一步的,其中S11包括以下步骤:
[0016]S111.采用DeepPhonemizer模型将文本信息转变为音素形式输入到文本编码器中;
[0017]S112.在文本编码器里对照音素的查找表转换为音素id后,编码为词嵌入向量。
[0018]进一步的,其中S12包括以下步骤:
[0019]S121.采用四个主要编码器,即韵律信息编码器、情感信息编码器、音色信息编码器、其余信息编码器分别提取音频信息的各个部分;
[0020]S122.各部分编码器负责根据输入的音频将其编码为各部分特征的隐空间编码。
[0021]进一步的,S13中的生成式大模型的主体部分包括一层的自回归transformer block和七层非自回归的transformer block,在架构上,所述自回归transformer block和所述七层非自回归的transformer block依次串联。
[0022]进一步的,其中S2包括以下步骤:
[0023]S21.当生成式大模型的音频输入被随机替换为与文本信息不对应的内容时,停止循环损失的计算;
[0024]S22.当生成式大模型的音频输入被随机替换为与文本信息音频内容相关时,引入循环损失计算。
[0025]进一步的,其中S22包括以下步骤:
[0026]S221.当音频内容,即音频信息1与文本内容相关联时,在训练过程中,随机挑选另一段音频信息,即音频信息2,将音频信息2随机的输入到一种音频编码器中;
[0027]S222.通过上述音频编码器将音频信息2编码后的结果替换该编码器原来的编码,与其余编码器的编码一起送入到生成式大模型中;
[0028]S223.解码为音频文件时,将生成的对抗样本文件再次输入到音频编码器中,得到其余编码器关于对抗样本音频的其余编码;
[0029]S224.将上述其余编码与之前的未输入生成式大模型的编码,即关于音频信息1的其余编码器编码进行损失计算。
[0030]进一步的,其中S3包括以下步骤:
[0031]S31.利用强化学习,构建音频信息关于情感、韵律信息的查找表;
[0032]S32.采用马尔科夫决策过程,在生成阶段和训练阶段,减少了人工标注工作量。
[0033]进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大模型对抗样本的生成方法,其特征在于,包括以下步骤:S1.采用生成式大模型,将音频信息和文本信息编码为中间特征,解码还原为音频文件;S2.引入循环损失计算,随机替换掉音频部分信息,达到音频各部分信息解耦;S3.利用强化学习,采用马尔科夫决策过程,减少了人工标注的工作量。2.根据权利要求1所述的一种大模型对抗样本的生成方法,其特征在于,所述S1包括以下步骤:S11.将文本信息输入到文本编码器中,在文本编码器中编码为词嵌入向量;S12.将音频信息采取多个音频编码器进行分别提取,编码为隐空间编码;S13.采用生成式大模型的主体部分将音频信息和文本信息编码为中间特征;S14.用开源音频编解码模型的解码器将其解码还原为对抗样本音频。3.根据权利要求2所述的一种大模型对抗样本的生成方法,其特征在于,所述S11包括以下步骤:S111.采用DeepPhonemizer模型将文本信息转变为音素形式输入到文本编码器中;S112.在文本编码器里对照音素的查找表转换为音素id后,编码为词嵌入向量。4.根据权利要求2所述的一种大模型对抗样本的生成方法,其特征在于,所述S12包括以下步骤:S121.采用四个主要编码器,即韵律信息编码器、情感信息编码器、音色信息编码器、其余信息编码器分别提取音频信息的各个部分;S122.各部分编码器负责根据输入的音频将其编码为各部分特征的隐空间编码。5.根据权利要求2所述的一种大模型对抗样本的生成方法,其特征在于,所述S13中的生成式大模型的主体部分包括一层的自回归transformer block和七层非自回归的transformer block,在架构上,所述自回归transformer block和所述七层非自回归的transformer block依次串联。6.根据权利要求1所述的一种大模型对抗样本的生成方法,其特征在于,所述S2包括以下步骤:S21.当生成式大模型的音频输入被随机替换为与文本信息不对应的内容时,停止循环损失的计算;S22.当生成式大模型的音频输入被随机替换为与文本信息音频内容相关时,引入循环损失计算。7.根据权利要求6所述的一种大模型对抗...

【专利技术属性】
技术研发人员:温正棋王小鹏
申请(专利权)人:中科极限元杭州智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1