一种高质量困难样本生成方法技术

技术编号:25598972 阅读:17 留言:0更新日期:2020-09-11 23:56
本发明专利技术公开一种高质量困难样本生成方法。所述方法包括:将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本;以输入文本和生成样本为训练样本,训练真伪判别器和相似判别器,真伪判别器判断生成样本是真实样本还是伪造样本,相似判别器通过计算输入文本与生成样本的余弦相似度,并与设定的阈值比较判断输入文本与生成样本是否相似;训练结果使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大;条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。本发明专利技术能够输出既包含多样化信息、又能尽量保留本身语义的困难样本,提高了困难样本生成的质量。

【技术实现步骤摘要】
一种高质量困难样本生成方法
本专利技术属于自然语言理解
,具体涉及一种高质量困难样本生成方法。
技术介绍
目前针对困难样本生成的方法主要包括基于VAE(VariationalAuto-Encoders,变分自编码器)的样本生成和基于GAN(GenerativeAdversarialNetworks,生成对抗网络模型)的样本生成。变分自编码器在数据生成方面表现出了巨大的应用价值。变分自编码器主要由编码器和解码器两部分组成。编码器根据训练样本建模隐变量所服从的概率分布p(z|x)中的参数,然后从p(z|x)概率分布进行采样得到隐变量z;解码器基于隐变量建模样本变量。由于在解码时进行随机采样,使得最后解码得到的结果具有随机性,即与x相似但又不完全一样。其中隐含变量z可以表示为语义信息。Zhao等人在CVAE(ConditionalVariationalAuto-Encoder,条件变分自编码器)的基础上加入特征信息y提出了kg-CVAE(Knowledge-ConditionalVariationalAuto-Encoder,知识条件变分自编码器)的方法来增强样本生成的质量。kg-VAE同样是由编码器和解码器两部分组成,编码器根据训练样本x以及对应的标签y建模隐变量服从的概率分布p(z|x,y),然后采样隐含变量z,解码器根据隐含变量z以及y建模,使得隐含变量z中不仅包含x的语义信息,而且根据标签y嵌入语法、话题、情感等其它信息。变分自编码器生成样本的方法存在的问题是,有时会存在KL消失的问题,导致生成的样本比较单一。生成对抗网络是进行样本生成的一种强大的深度学习算法。生成对抗网络包括生成网络和判别网络。传统的生成对抗网络首先根据随机噪声生成样本和真实样本训练生成器,利用真实样本和生成器生成的样本训练判别器,使其尽可能多地分辨真实样本和生成的伪样本。然后训练生成网络,使其尽可能减小训练样本和生成样本之间的差距。两者循环迭代更新,最后使生成样本和真实样本分布一致,从而生成高质量的困难样本。生成对抗网络生成的样本多样性比较高,但是由于随机性比较大,生成的样本的质量不是很稳定。
技术实现思路
为了解决现有技术中存在的上述问题,本专利技术提出一种高质量困难样本生成方法。为实现上述目的,本专利技术采用如下技术方案:一种高质量困难样本生成方法,包括以下步骤:步骤1,将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本;步骤2,以输入文本和生成样本为训练样本,训练真伪判别器和相似判别器,同时对条件变分自编码器进行训练;真伪判别器判断生成样本是真实样本还是伪造样本,相似判别器通过计算输入文本与生成样本的余弦相似度,并与设定的阈值比较判断输入文本与生成样本是否相似;训练的优化目标是使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大;步骤3,条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。与现有技术相比,本专利技术具有以下有益效果:本专利技术通过将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本,以输入文本和生成样本为训练样本训练真伪判别器和相似判别器,使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大,能够使条件变分自编码器输出既包含多样化信息,又能尽量保留本身语义的困难样本,提高了困难样本生成的质量。附图说明图1为本专利技术实施例一种高质量困难样本生成方法的流程图。具体实施方式下面结合附图对本专利技术作进一步详细说明。本专利技术实施例一种高质量困难样本生成方法,流程图如图1所示,所述方法包括以下步骤:S101、将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本;S102、以输入文本和生成样本为训练样本,训练真伪判别器和相似判别器,同时对条件变分自编码器进行训练;真伪判别器判断生成样本是真实样本还是伪造样本,相似判别器通过计算输入文本与生成样本的余弦相似度,并与设定的阈值比较判断输入文本与生成样本是否相似;训练的优化目标是使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大;S103、条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。本实施例生成高质量困难样本的原理是:将给定输入句子x,输入自编码器生成句子的语义信息z,然后在z的基础上引入多样性的信息进行解码。为了保证生成的句子既没有丢失句子本身的语义信息,同时包含多样化的信息,设计了两个独特的判别器即真伪判别器和相似判别器,对生成句子的多样性以及真实性进行分类。通过对两个判别器的训练,尽可能地减小训练样本和生成样本之间的差距,从而使生成的句子既最大程度地保留句子本身的语义信息。在本实施例中,步骤S101主要用于将输入文本x和指定标签y输入条件变分自编码器,得到指定标签类别的生成样本z。传统的变分自编码器生成的样本可以看作是多个样本的平均值,生成的样本存在单一模糊的缺点。本实施例的条件变分自编码在基于指定标签的约束模型考虑输入本身的语义信息的条件下,可以优先学习到与指定标签相关的特性,使得生成的样本质量更高。指定标签是表明句式的一些标签,如疑问句、陈述句等。指定标签中包含了表示情感等的多样化信息。在条件变分自编码器训练过程中,首先假设p(z|x)服从标准正态分布,编码器根据训练样本建模隐变量服从的概率分布p(z|x,y)。然后以KL散度为优化目标使先验概率p(z|x)和后验概率p(z|x,y)尽量逼近,那么先验即可以与后验生成较为相似的隐变量。解码器端将隐变量与对话上下文拼接起来作为其输入,然后再对解码的结果进行极大似然优化。在本实施例中,步骤S102主要用于实现对真伪判别器和相似判别器进行训练。条件变分自编码器相当于生成对抗网络中的生成器,本实施例的判别器主要是基于attention机制实现的。与传统的对抗网络相比,本实施例设计了两种独特的判别器:一种判别器用于对训练样例真伪进行分类,称为真伪判别器;另一种判别器用于根据真实样本和生成样本的语义相关性,判断两个样本是否相似,具体通过计算两个样本的余弦相似度,并与设定的阈值进行比较,如果超过设定的阈值,则相似;否则不相似。对两个判别器训练的同时,对条件变分自编码器也进行训练,以使真伪判别器判为真实样本的概率和相似判别器判为相似的概率尽量大为优化目标,这样可使条件变分自编码器生成的样本能够很好地保留输入文本的本身语义。在本实施例中,步骤S103主要用于输出高质量的困难样本。模型训练好后,将输入文本和指定的标签输入条件变分自编码器,便可输出既包含多样化信息又保留本身语义的高质量困难样本。作为一种可选实施例,训练真伪判别器和相似判别器的损失函数为:Loss=L1+βL2+γLreg(1)L1=-(ytlogeyp+(1-yt)loge(1-yp))(2)L2=-(yslogeyq+(1本文档来自技高网
...

【技术保护点】
1.一种高质量困难样本生成方法,其特征在于,包括以下步骤:/n步骤1,将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本;/n步骤2,以输入文本和生成样本为训练样本,训练真伪判别器和相似判别器,同时对条件变分自编码器进行训练;真伪判别器判断生成样本是真实样本还是伪造样本,相似判别器通过计算输入文本与生成样本的余弦相似度,并与设定的阈值比较判断输入文本与生成样本是否相似;训练的优化目标是使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大;/n步骤3,条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。/n

【技术特征摘要】
1.一种高质量困难样本生成方法,其特征在于,包括以下步骤:
步骤1,将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本;
步骤2,以输入文本和生成样本为训练样本,训练真伪判别器和相似判别器,同时对条件变分自编码器进行训练;真伪判别器判断生成样本是真实样本还是伪造样本,相似判别器通过计算输入文本与生成样本的余弦相似度,并与设定的阈值比较判断输入文本与生成样本是否相似;训练的优化目标是使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大;
步骤3,条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。...

【专利技术属性】
技术研发人员:王春辉胡勇
申请(专利权)人:拾音智能科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1