基于事实导向的文本生成方法、装置和计算机设备制造方法及图纸

技术编号:27265909 阅读:26 留言:0更新日期:2021-02-06 11:29
本申请涉及一种基于事实导向的文本生成方法、装置和计算机设备。所述方法包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定强化学习自生成式对抗性网络中判别器的网络奖励;根据待生成文本和真实文本之间的当前单词序列信息,确定判别器的事实导向奖励;根据网络奖励和所述事实导向奖励构建损失函数,通过损失函数对强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。采用本方法能够提高文本生成准确率。标文本。采用本方法能够提高文本生成准确率。标文本。采用本方法能够提高文本生成准确率。

【技术实现步骤摘要】
基于事实导向的文本生成方法、装置和计算机设备


[0001]本申请涉及计算机
,特别是涉及一种基于事实导向的文本生成方法、装置和计算机设备。

技术介绍

[0002]自生成式对抗性网络GANs 出现以来,它和它的变体已经无数次在图像生成任务中证明了自己的有效性,也不断地吸引着越来越多的研究人员加入到提高GANs训练的可控性和稳定性的研究中。每个文本生成过程都被视为一个决策,而判别器D用于判断当前决策的奖励值。生成器G的目的是使下一个决策获得更高的奖励值。两者的乘积是网络在当前时刻想要最大化的目标函数。
[0003]目前基于序列决策的文本生成方法中有一个很大的不足,那就是来自判别器 D的概率标量反馈信号是稀疏的,因为文本虽然是由生成器G在多轮行动中逐个词生成的,但只有当整个句子都生成完毕后生成器G才能收到来自判别器D的反馈信号。而且,生成器G本应是在判别器D的指导下更新自己的策略的,但判别器D对这整段文字的反馈是一个标量,信息量极为有限,不足以保留过程中的句法结构和文本语意。

技术实现思路

[0004]基于此,有必要针对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于事实导向的文本生成方法,其特征在于,所述方法包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励;根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励;根据所述网络奖励和所述事实导向奖励构建损失函数,通过所述损失函数对所述强化学习自生成式对抗性网络的整体目标函数进行优化,得到训练好的强化学习自生成式对抗性网络;将待生成文本输入训练好的强化学习自生成式对抗性网络,输出目标文本。2.根据权利要求1所述的方法,其特征在于,所述根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述强化学习自生成式对抗性网络中判别器的网络奖励,包括:根据输入预先设置的强化学习自生成式对抗性网络中的待生成文本和真实文本之间的完整单词序列信息,确定所述完整单词序列信息中每个单词对应单个时间步的奖励计算公式如下:其中,表示在参数θ和状态S
i
下生成的文本向量,D表示判别器D的判别分数;Y
i
表示时刻i得到的完整单词序列信息,从时刻1到时刻T-1可得状态S,输出为时间步1到T的累计奖励结果;根据单个时间的累计奖励,取平均值得到所述强化学习自生成式对抗性网络中判别器的网络奖励为:其中,t表示当前时间步。3.根据权利要求2所述的方法,其特征在于,在根据所述网络奖励和所述事实导向奖励构建损失函数之前,所述方法还包括:获取当前时间步生成单词的总数占完整单词序列信息中单词总数的比例信息;若所述比例信息大于阈值,则根据所述网络奖励和所述事实导向奖励构建损失函数。4.根据权利要求1所述的方法,其特征在于,所述根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励,包括:根据待生成文本和真实文本之间的当前单词序列信息,确定所述判别器的事实导向奖励为:
其中,表示生成器在参数θ和状态S
i
下生成的文本向量,gt表示真实文本的矢量表示,Dis
cosθ
表示两个向量之间的余弦距离;Dis
o
表示欧氏距离。5.根据权利要求2至4任一项所述的方法,其特征在于,所述方法还包括:将状态S
...

【专利技术属性】
技术研发人员:刘晓艺
申请(专利权)人:湖南科迪云飞信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1