文本生成器训练方法和文本生成器训练系统技术方案

技术编号：21952715 阅读：34 留言：0更新日期：2019-08-24 17:49

本发明专利技术提供一种文本生成器训练方法和文本生成器训练系统，其中方法包括：对隐层状态向量进行随机高斯初始化；读入所述隐层状态向量和起始字符，作为所述文本生成器的第一输入；通过多项式采样方法生成第一个字符，作为所述文本生成器的第一输出；将生成概率满足预设条件的字符作为所述文本生成器的下一输出，直至生成结束字符。本发明专利技术中，通过对隐层状态向量进行随机高斯初始化，可以有效避免文本生成器生成重复的文本，提高生成得到的样本的多样性。

Text Generator Training Method and Text Generator Training System

全部详细技术资料下载

【技术实现步骤摘要】
文本生成器训练方法和文本生成器训练系统
本专利技术涉及互联网
，尤其涉及一种文本生成器训练方法和文本生成器训练系统。
技术介绍
样本生成(SampleGenerating)技术是指通过一定的技术手段从已有样本中发现其分布规律，并产生符合其分布的新样本的技术。在文本内容风控等特定场景下，需要从大量数据中发现作弊数据，以实现对作弊数据的识别。目前，通常采用人工抽取样本的方法从大量数据中筛选出作弊样本，既耗时又费力。随着结合生成式对抗网络(GenerativeAdversarialNetworks，GAN)和强化学习(ReinforcementLearning)的SeqGAN(SequenceGenerativeAdversarialNetworks)的提出，SeqGAN可用于训练文本生成器。其中，在训练过程中采用GAN的思路，使用已有作弊样本训练一个文本生成器(Generator)，并使用这个文本生成器生成假的作弊样本，再利用真实的作弊样本以及假的作弊样本分别为正负样本训练一个判别器(Discriminator)；之后使用判别器指导生成器不断更新网络参数，以使得生成器生成的模型能够生成更加符合作弊样本分布的新样本；最后利用得到的生成器生成新的作弊样本以用于反作弊文本模型的训练。其中，在更新网络参数的过程中，将文本样本生成过程视为一个策略网络(即生成器网络)的决策过程，使用强化学习的策略梯度(PolicyGradient)的训练策略以解决文本类型离散数据不可导的问题，并在其中采用蒙特卡洛采样方法补全当前生成的序列，并将补全后的序列被判别器判断为真实样本的概...

【技术保护点】
1.一种文本生成器训练方法，其特征在于，包括：对隐层状态向量进行随机高斯初始化；读入所述隐层状态向量和起始字符，作为所述文本生成器的第一输入；通过多项式采样方法生成第一个字符，作为所述文本生成器的第一输出；将生成概率满足预设条件的字符作为所述文本生成器的下一输出，直至生成结束字符。

【技术特征摘要】
1.一种文本生成器训练方法，其特征在于，包括：对隐层状态向量进行随机高斯初始化；读入所述隐层状态向量和起始字符，作为所述文本生成器的第一输入；通过多项式采样方法生成第一个字符，作为所述文本生成器的第一输出；将生成概率满足预设条件的字符作为所述文本生成器的下一输出，直至生成结束字符。2.根据权利要求1所述的方法，其特征在于，所述通过多项式采样方法生成第一个字符，包括：通过所述隐层状态向量和所述起始字符，分别计算各字符的生成概率；根据各字符的生成概率，对各字符进行随机采样，以得到所述第一个字符。3.根据权利要求1或2所述的方法，其特征在于，所述将生成概率满足预设条件的字符作为所述文本生成器的下一输出，包括：将生成概率最大的字符作为所述文本生成器的下一输出。4.根据权利要求1或2所述的方法，其特征在于，在所述对隐层状态向量进行随机高斯初始化之前，所述方法还包括：使用输入的第一样本对所述文本生成器进行预训练，以使所述文本生成器实现参数初始化。5.根据权利要求4所述的方法，其特征在于，所述使用输入的第一样本对所述文本生成器进行预训练，包括：将所述第一样本中每条文本的字符按预设规则移动，以得到第二样本；将所述第二样本作为所述文本生成器的输出。6.根据权利要求5所述的方法，其特征在于，所述将所述第一样本中每条文本的字符按预设规则移动，以得到第二样本，包括：将所述第一样本中每条文本的字符按N个字符宽度右移或左移，以得到第二样本，所述N为正整数。7.根据权利要求1或2所述的方法，其特征在于，所述文本生成器由长短期记忆网络LSTM神经元构成。8.根据权利要求1或2所述的方法，其特征在于，所述文本生成器用于生成作弊样本。9.一种文本生成器训练系统，其特征在于，包括：隐层状态向量初始化模块，用于对隐层状态向量进行随机高斯初始化；输入模块，用于读入所述隐层状态向量和...

【专利技术属性】
技术研发人员：李嘉藩，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人