基于事实导向的文本生成方法、装置和计算机设备制造方法及图纸

技术编号:27265909 阅读:17 留言:0更新日期:2021-02-06 11:29
本申请涉及一种基于事实导向的文本生成方法、装置和计算机设备。所述方法包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定强化学习自生成式对抗性网络中判别器的网络奖励;根据待生成文本和真实文本之间的当前单词序列信息,确定判别器的事实导向奖励;根据网络奖励和所述事实导向奖励构建损失函数,通过损失函数对强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。采用本方法能够提高文本生成准确率。标文本。采用本方法能够提高文本生成准确率。标文本。采用本方法能够提高文本生成准确率。

【技术实现步骤摘要】
基于事实导向的文本生成方法、装置和计算机设备


[0001]本申请涉及计算机
,特别是涉及一种基于事实导向的文本生成方法、装置和计算机设备。

技术介绍

[0002]自生成式对抗性网络GANs 出现以来,它和它的变体已经无数次在图像生成任务中证明了自己的有效性,也不断地吸引着越来越多的研究人员加入到提高GANs训练的可控性和稳定性的研究中。每个文本生成过程都被视为一个决策,而判别器D用于判断当前决策的奖励值。生成器G的目的是使下一个决策获得更高的奖励值。两者的乘积是网络在当前时刻想要最大化的目标函数。
[0003]目前基于序列决策的文本生成方法中有一个很大的不足,那就是来自判别器 D的概率标量反馈信号是稀疏的,因为文本虽然是由生成器G在多轮行动中逐个词生成的,但只有当整个句子都生成完毕后生成器G才能收到来自判别器D的反馈信号。而且,生成器G本应是在判别器D的指导下更新自己的策略的,但判别器D对这整段文字的反馈是一个标量,信息量极为有限,不足以保留过程中的句法结构和文本语意。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够解决基于序列决策信息量有限问题的基于事实导向的文本生成方法、装置和计算机设备。
[0005]一种基于事实导向的文本生成方法,所述方法包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
[0006]在其中一个实施例中,还包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下:其中,表示在参数θ和状态S
i
下生成的文本向量。D表示判别器D的判别分数;Y
i
表示时刻i得到的完整单词序列信息,从时刻1到时刻T-1可得状态S,输出为时间步1到T
的累计奖励结果;根据单个时间的累计奖励,取平均值得到所述强化学习自生成式对抗性网络中判别器的网络奖励为:其中,t表示当前时间步。
[0007]在其中一个实施例中,还包括:获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息;若所述比例信息大于阈值,则根据所述网络奖励和所述判别器构建损失函数。
[0008]在其中一个实施例中,还包括:根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励为:其中,表示生成器在参数θ和状态S
i
下生成的文本向量,gt表示真实文本的矢量表示,Dis
cosθ
表示两个向量之间的余弦距离;Dis
o
表示欧氏距离。
[0009]在其中一个实施例中,还包括:将状态S
i
输入预先设置的神经网络,得到泄露奖励为:其中,,D
φ
表示神经网络,f是D
φ
的最后一层中s的特征向量。
[0010]在其中一个实施例中,还包括:根据所述网络奖励、所述事实导向奖励以及所述泄露奖励构建损失函数为:露奖励构建损失函数为:。
[0011]其中,α表示不同时间步的可信度,β和γ表示比例系数;根据所述损失函数所述强化学习自生成式对抗性网络的整体目标函数进行优化,所述整体目标函数为:其中,D表示判别器,G表示生成器。
[0012]在其中一个实施例中,还包括:通过预先设置的判别模型求解所述整体目标函数;
其中,所述判别模型包括:句子特征提取器和分布距离计算模型;所述句子提取器通过预设的卷积神经网络将待生成文本和真实文本映射至同一特征空间的特征向量;所述分布距离计算模型通过所述待生成文本对应的特征向量映射至所述真实文本对应的特征向量的代价矩阵,根据所述代价矩阵求解所述整体目标函数。
[0013]一种基于事实导向的文本生成装置,所述装置包括:网络奖励计算模块,用于根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;事实导向奖励计算模块,用于根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;训练模块,用于根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;输出模块,用于将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
[0014]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
[0015]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。
[0016]上述基于事实导向的文本生成方法、装置、计算机设备和存储介质,通过重新定义返回给生成器的奖励值,可以解决来自判别器 D的概率标量反馈信号是稀疏的问题,提高信息量。
附图说明
[0017]图1为一个实施例中基于事实导向的文本生成方法的流程示意图;图2为一个实施例中强化学习自生成式对抗性网络的结构示意图;图3为另一个实施例中判别器的结构示意图;图4为一个实施例中基于事实导向的文本生成装置的结构框图;图5为一个实施例中计算机设备的内部结构图。
具体实施方式
[0018]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于事实导向的文本生成方法,其特征在于,所述方法包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。2.根据权利要求1所述的方法,其特征在于,所述根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励,包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下:其中,表示在参数θ和状态S
i
下生成的文本向量,D表示判别器D的判别分数;Y
i
表示时刻i得到的完整单词序列信息,从时刻1到时刻T-1可得状态S,输出为时间步1到T的累计奖励结果;根据单个时间的累计奖励,取平均值得到所述强化学习自生成式对抗性网络中判别器的网络奖励为:其中,t表示当前时间步。3.根据权利要求2所述的方法,其特征在于,在根据所述网络奖励和所述事实导向奖励构建损失函数之前,所述方法还包括:获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息;若所述比例信息大于阈值,则根据所述网络奖励和所述事实导向奖励构建损失函数。4.根据权利要求1所述的方法,其特征在于,所述根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励,包括:根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励为:
其中,表示生成器在参数θ和状态S
i
下生成的文本向量,gt表示真实文本的矢量表示,Dis
cosθ
表示两个向量之间的余弦距离;Dis
o
表示欧氏距离。5.根据权利要求2至4任一项所述的方法,其特征在于,所述方法还包括:将状态S
...

【专利技术属性】
技术研发人员:刘晓艺
申请(专利权)人:湖南科迪云飞信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1