一种高质量困难样本生成方法技术

技术编号：25598972 阅读：37 留言：0更新日期：2020-09-11 23:56

本发明专利技术公开一种高质量困难样本生成方法。所述方法包括：将输入文本和包含多样化信息的指定标签输入至条件变分自编码器，得到指定标签类别的生成样本；以输入文本和生成样本为训练样本，训练真伪判别器和相似判别器，真伪判别器判断生成样本是真实样本还是伪造样本，相似判别器通过计算输入文本与生成样本的余弦相似度，并与设定的阈值比较判断输入文本与生成样本是否相似；训练结果使真伪判别器判为真实样本的概率尽量大，使相似判别器判为相似的概率尽量大；条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。本发明专利技术能够输出既包含多样化信息、又能尽量保留本身语义的困难样本，提高了困难样本生成的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种高质量困难样本生成方法
本专利技术属于自然语言理解
，具体涉及一种高质量困难样本生成方法。
技术介绍
目前针对困难样本生成的方法主要包括基于VAE(VariationalAuto-Encoders，变分自编码器)的样本生成和基于GAN(GenerativeAdversarialNetworks，生成对抗网络模型)的样本生成。变分自编码器在数据生成方面表现出了巨大的应用价值。变分自编码器主要由编码器和解码器两部分组成。编码器根据训练样本建模隐变量所服从的概率分布p(z|x)中的参数，然后从p(z|x)概率分布进行采样得到隐变量z；解码器基于隐变量建模样本变量。由于在解码时进行随机采样，使得最后解码得到的结果具有随机性，即与x相似但又不完全一样。其中隐含变量z可以表示为语义信息。Zhao等人在CVAE(ConditionalVariationalAuto-Encoder，条件变分自编码器)的基础上加入特征信息y提出了kg-CVAE(Knowledge-ConditionalVariationalAuto-Enc...

【技术保护点】
1.一种高质量困难样本生成方法，其特征在于，包括以下步骤：/n步骤1，将输入文本和包含多样化信息的指定标签输入至条件变分自编码器，得到指定标签类别的生成样本；/n步骤2，以输入文本和生成样本为训练样本，训练真伪判别器和相似判别器，同时对条件变分自编码器进行训练；真伪判别器判断生成样本是真实样本还是伪造样本，相似判别器通过计算输入文本与生成样本的余弦相似度，并与设定的阈值比较判断输入文本与生成样本是否相似；训练的优化目标是使真伪判别器判为真实样本的概率尽量大，使相似判别器判为相似的概率尽量大；/n步骤3，条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。/n

【技术特征摘要】
1.一种高质量困难样本生成方法，其特征在于，包括以下步骤：
步骤1，将输入文本和包含多样化信息的指定标签输入至条件变分自编码器，得到指定标签类别的生成样本；
步骤2，以输入文本和生成样本为训练样本，训练真伪判别器和相似判别器，同时对条件变分自编码器进行训练；真伪判别器判断生成样本是真实样本还是伪造样本，相似判别器通过计算输入文本与生成样本的余弦相似度，并与设定的阈值比较判断输入文本与生成样本是否相似；训练的优化目标是使真伪判别器判为真实样本的概率尽量大，使相似判别器判为相似的概率尽量大；
步骤3，条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。...

【专利技术属性】
技术研发人员：王春辉，胡勇，
申请(专利权)人：拾音智能科技有限公司，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人