文本生成器训练方法和文本生成器训练系统技术方案

技术编号:21952715 阅读:34 留言:0更新日期:2019-08-24 17:49
本发明专利技术提供一种文本生成器训练方法和文本生成器训练系统,其中方法包括:对隐层状态向量进行随机高斯初始化;读入所述隐层状态向量和起始字符,作为所述文本生成器的第一输入;通过多项式采样方法生成第一个字符,作为所述文本生成器的第一输出;将生成概率满足预设条件的字符作为所述文本生成器的下一输出,直至生成结束字符。本发明专利技术中,通过对隐层状态向量进行随机高斯初始化,可以有效避免文本生成器生成重复的文本,提高生成得到的样本的多样性。

Text Generator Training Method and Text Generator Training System

【技术实现步骤摘要】
文本生成器训练方法和文本生成器训练系统
本专利技术涉及互联网
,尤其涉及一种文本生成器训练方法和文本生成器训练系统。
技术介绍
样本生成(SampleGenerating)技术是指通过一定的技术手段从已有样本中发现其分布规律,并产生符合其分布的新样本的技术。在文本内容风控等特定场景下,需要从大量数据中发现作弊数据,以实现对作弊数据的识别。目前,通常采用人工抽取样本的方法从大量数据中筛选出作弊样本,既耗时又费力。随着结合生成式对抗网络(GenerativeAdversarialNetworks,GAN)和强化学习(ReinforcementLearning)的SeqGAN(SequenceGenerativeAdversarialNetworks)的提出,SeqGAN可用于训练文本生成器。其中,在训练过程中采用GAN的思路,使用已有作弊样本训练一个文本生成器(Generator),并使用这个文本生成器生成假的作弊样本,再利用真实的作弊样本以及假的作弊样本分别为正负样本训练一个判别器(Discriminator);之后使用判别器指导生成器不断更新网络参数,以使得生成器生成的模型能够生成更加符合作弊样本分布的新样本;最后利用得到的生成器生成新的作弊样本以用于反作弊文本模型的训练。其中,在更新网络参数的过程中,将文本样本生成过程视为一个策略网络(即生成器网络)的决策过程,使用强化学习的策略梯度(PolicyGradient)的训练策略以解决文本类型离散数据不可导的问题,并在其中采用蒙特卡洛采样方法补全当前生成的序列,并将补全后的序列被判别器判断为真实样本的概率作为当前Step的Reward更新生成器网络,以逐步优化生成器的网络参数,生成更为逼真的样本。在上述训练方法中,文本生成器在生成每个样本时采用同样的隐层状态(hiddenstate)参数,这些参数在训练过程中不断被更新,而在生成样本时保持不变,因此,对于同样的初始字符输入会生成同样的文本序列。而对于反作弊场景来说,采用文本生成器生成的作弊样本需要具有一定程度的多样性。因此,上述文本生成器的训练方法无法满足作弊样本多样性的需求。
技术实现思路
本专利技术实施例提供一种文本生成器训练方法和文本生成器训练系统,以解决现有文本生成器的训练方法无法满足作弊样本多样性需求的问题。为了解决上述技术问题,本专利技术是这样实现的:第一方面,本专利技术实施例提供了一种文本生成器训练方法,包括:对隐层状态向量进行随机高斯初始化;读入所述隐层状态向量和起始字符,作为所述文本生成器的第一输入;通过多项式采样方法生成第一个字符,作为所述文本生成器的第一输出;将生成概率满足预设条件的字符作为所述文本生成器的下一输出,直至生成结束字符。第二方面,本专利技术实施例提供了一种文本生成器训练系统,包括:隐层状态向量初始化模块,用于对隐层状态向量进行随机高斯初始化;输入模块,用于读入所述隐层状态向量和起始字符,作为所述文本生成器的第一输入;第一输出模块,用于通过多项式采样方法生成第一个字符,作为所述文本生成器的第一输出;第二输出模块,将生成概率满足预设条件的字符作为所述文本生成器的下一输出,直至生成结束字符。第三方面,本专利技术实施例提供了另一种文本生成器训练系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时,实现本专利技术实施例第一方面中的文本生成器训练方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术实施例第一方面中的文本生成器训练方法中的步骤。本专利技术实施例中,通过对隐层状态向量进行随机高斯初始化,可以有效避免文本生成器生成重复的文本,提高生成得到的样本的多样性。附图说明图1是本专利技术实施例提供的一种文本生成器训练方法的流程示意图;图2是本专利技术实施例提供的文本生成器训练时序示意图;图3是本专利技术实施例提供的文本生成器预训练阶段的时序示意图;图4是本专利技术实施例提供的一种文本生成器训练系统的结构示意图;图5是本专利技术实施例提供的另一种文本生成器训练系统的结构示意图;图6是本专利技术实施例提供的另一种文本生成器训练系统的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本专利技术保护的范围。如图1所示,一种文本生成器训练方法,包括以下步骤:步骤101:对隐层状态向量进行随机高斯初始化。其中,隐层状态向量指的是在生成文本的开始阶段有一个初始值,随着不断生成下一个字符而不断更新。随机高斯初始化又可称为高斯分布随机初始化。该步骤中,对隐层状态向量进行随机高斯初始化,是指生成每条文本时都按照指定的高斯分布计算得到一个随机的向量作为隐层状态向量,而不是直接取一个全零向量作为隐层状态向量。步骤102:读入所述隐层状态向量和起始字符,作为所述文本生成器的第一输入。其中,起始字符也可称为起始符号,起始字符是指一种特殊标记。起始字符作为文本生成器的输入,可由两个特殊的整数标识组成,但不代表任何字符。上述文本生成器可由长短期记忆网络(LongShortTermMemory,简称LSTM)神经元构成。上述文本生成器可用于生成作弊样本。其中,作弊样本通常是指利用互联网传播的包含有不良信息或异常信息的样本。步骤103:通过多项式采样方法生成第一个字符,作为所述文本生成器的第一输出。其中,通过多项式采样方法生成第一个字符,具体包括以下步骤:通过所述隐层状态向量和所述起始字符,分别计算各字符的生成概率;根据各字符的生成概率,对各字符进行随机采样,以得到所述第一个字符。更具体的,通过多项式采样方法生成第一个字符(token),是指文本生成器通过读入隐层状态向量以及起始符号计算得到下一个字符所有可能出现的概率(比如为“我”的概率是0.1%,为“你”的概率是0.2%,其余所有汉字或者英文、数字等字符类似),然后根据各字符的概率随机采样得到整条生成文本的第一个字符(某个字符的概率越高,取该字符的可能性也越大),该第一个字符作为文本生成器的第一输出。步骤104:将生成概率满足预设条件的字符作为所述文本生成器的下一输出,直至生成结束字符。该步骤中,在生成第一个字符之后,后续输出的字符可取生成概率满足预设条件的字符。具体的,在计算出来下一个字符所有可能出现的概率之后取概率满足预设条件的字符作为下一个字符,而不是用多项式采样的方法从这些字符中随机取一个。在生成结束字符时,即可表明所有的字符全部输出完毕,所有输出的字符的集合即为文本生成器所生成的样本。其中,生成概率满足预设条件,可以理解为,生成概率大于或等于预设的阈值。具体的,将生成概率满足预设条件的字符作为所述文本生成器的下一输出,包括:将生成概率最大的字符作为所述文本生成器的下一输出。这样,在生成第一个字符之后,后续输出的字符直接取生成概率最大的字符。或者说,在计算出来下一个字符所有可能出现的概率之后直接取概率最大的字符作为下一个字符,而不是用多项式采样的方法从这些字符中随机取一个。在传本文档来自技高网
...

【技术保护点】
1.一种文本生成器训练方法,其特征在于,包括:对隐层状态向量进行随机高斯初始化;读入所述隐层状态向量和起始字符,作为所述文本生成器的第一输入;通过多项式采样方法生成第一个字符,作为所述文本生成器的第一输出;将生成概率满足预设条件的字符作为所述文本生成器的下一输出,直至生成结束字符。

【技术特征摘要】
1.一种文本生成器训练方法,其特征在于,包括:对隐层状态向量进行随机高斯初始化;读入所述隐层状态向量和起始字符,作为所述文本生成器的第一输入;通过多项式采样方法生成第一个字符,作为所述文本生成器的第一输出;将生成概率满足预设条件的字符作为所述文本生成器的下一输出,直至生成结束字符。2.根据权利要求1所述的方法,其特征在于,所述通过多项式采样方法生成第一个字符,包括:通过所述隐层状态向量和所述起始字符,分别计算各字符的生成概率;根据各字符的生成概率,对各字符进行随机采样,以得到所述第一个字符。3.根据权利要求1或2所述的方法,其特征在于,所述将生成概率满足预设条件的字符作为所述文本生成器的下一输出,包括:将生成概率最大的字符作为所述文本生成器的下一输出。4.根据权利要求1或2所述的方法,其特征在于,在所述对隐层状态向量进行随机高斯初始化之前,所述方法还包括:使用输入的第一样本对所述文本生成器进行预训练,以使所述文本生成器实现参数初始化。5.根据权利要求4所述的方法,其特征在于,所述使用输入的第一样本对所述文本生成器进行预训练,包括:将所述第一样本中每条文本的字符按预设规则移动,以得到第二样本;将所述第二样本作为所述文本生成器的输出。6.根据权利要求5所述的方法,其特征在于,所述将所述第一样本中每条文本的字符按预设规则移动,以得到第二样本,包括:将所述第一样本中每条文本的字符按N个字符宽度右移或左移,以得到第二样本,所述N为正整数。7.根据权利要求1或2所述的方法,其特征在于,所述文本生成器由长短期记忆网络LSTM神经元构成。8.根据权利要求1或2所述的方法,其特征在于,所述文本生成器用于生成作弊样本。9.一种文本生成器训练系统,其特征在于,包括:隐层状态向量初始化模块,用于对隐层状态向量进行随机高斯初始化;输入模块,用于读入所述隐层状态向量和...

【专利技术属性】
技术研发人员:李嘉藩
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1