自然语言生成模型的训练方法和装置制造方法及图纸

技术编号:29255277 阅读:31 留言:0更新日期:2021-07-13 17:26
本公开涉及一种自然语言生成模型的训练方法和装置,涉及计算机技术领域。该训练方法包括:以各历史时刻的生成词为当前时刻的状态,以当前时刻的生成词的输出为动作,将自然语言生成处理建模为强化学习模型;根据强化学习模型输出的各时刻的生成词的优势函数,确定第一目标函数;根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异,确定第二目标函数;根据第一目标函数、第二目标函数的加权平均值,训练强化学习模型。

【技术实现步骤摘要】
自然语言生成模型的训练方法和装置
本公开涉及计算机
,特别涉及一种自然语言生成模型的训练方法、自然语言生成模型的训练装置、自然语言的生成方法、自然语言的生成装置和非易失性计算机可读存储介质。
技术介绍
近年来AI(ArtificialIntelligence,人工智能)技术发展迅猛,其应用遍布人类生产生活的各个领域。NLP(NaturalLanguageProcessing,自然语言处理)是人工智能领域的一项重要应用,主要分为自然语言理解和NLG(NaturalLanguageGeneration,自然语言生成)两个分支。自然语言生成是一项融合了人工智能、计算机科学和计算语言学的重要科学技术。它的主要目的是使计算机具有与人相同的表达和写作的功能,即使计算机能够根据一些关键的输入信息,经过一系列的处理、规划过程,来自动生成一段高质量的文本。该技术的应用已经非常广泛,其中最为常见的应用有机器翻译、聊天机器人和语音助手等。在相关技术中,基于统计机器学习的方法对输入计算机的信息进行建模,从而生成文本。<br>
技术实现思路
<本文档来自技高网
...

【技术保护点】
1.一种自然语言生成模型的训练方法,包括:/n以各历史时刻的生成词为当前时刻的状态,以当前时刻的生成词的输出为动作,将自然语言生成处理建模为强化学习模型;/n根据所述强化学习模型输出的各时刻的生成词的优势函数,确定第一目标函数;/n根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异,确定第二目标函数;/n根据所述第一目标函数、所述第二目标函数的加权平均值,训练所述强化学习模型。/n

【技术特征摘要】
1.一种自然语言生成模型的训练方法,包括:
以各历史时刻的生成词为当前时刻的状态,以当前时刻的生成词的输出为动作,将自然语言生成处理建模为强化学习模型;
根据所述强化学习模型输出的各时刻的生成词的优势函数,确定第一目标函数;
根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异,确定第二目标函数;
根据所述第一目标函数、所述第二目标函数的加权平均值,训练所述强化学习模型。


2.根据权利要求1所述的训练方法,其中,所述根据所述强化学习模型输出的各时刻的生成词的优势函数,确定第一目标函数包括:
根据各时刻的状态动作函数与其前一时刻的状态动作函数的差异,确定所述优势函数。


3.根据权利要求2所述的训练方法,其中,所述确定所述优势函数包括:
根据时刻0~t-1的动作a0~at-1、时刻t的动作at,预测时刻t+1~L-1的多种动作组合at+1~aL-1;
计算各动作组合at+1~aL-1的奖励值;
根据各奖励值的加权平均值,确定t时刻的状态动作函数。


4.根据权利要求1所述的训练方法,其中,所述根据所述强化学习模型输出的各时刻的生成词的优势函数,确定第一目标函数包括:
利用所述强化学习模型,输出的各时刻的生成词的生成概率;
根据各时刻的生成词的优势函数和生成概率,确定所述第一目标函数。


5.根据权利要求1所述的训练方法,其中,所述根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异,确定第二目标函数包括:
根据各时刻的标注结果与语料库中各词语之间的差异,确定各时刻的先验概率;
利用所述强化学习模型,输出的各时刻的生成词的生成概率;
根据各时刻的先验概率与生成概率的差异的加权平均值,确定所述第二目标函数。


6.根据权利要求5所述的训练方法,其中,所述根据各时刻的标注结果与语料库中各词语之间的差异,确定各时刻的先验概率包括:
根据各时刻的标注结果的词向量与语料库中各词语的向量的相似度,确定各时刻的先验概率。


7.根据权利要求5所述的训练方法,其中,所述根据各时刻的先验概率与生成概率的差异的加权平均值,确定所述第二目标函数包括:
根据各时刻的生成词的优势函数,确定相应时刻的先验概率与生成概率的差异的权重,所述权重与所述优势函数负相关。


8.根据权利要求1所述的训练方法,其中,所述根据所述第一目标函数、所述第二目标函数的加权平均值,训练所述强化学习模型包括:
根据所述第一目标函数、所述第二目标函数的加权平均值,确定综合目标函数;
以所述综合目标函数最小化为条件,训练所述强化学习模型。


9.根据权利要求1-8任一项所述的训练方法,还包括:
利用完成训练的所述强化学习模型,生成自然语言数据。


10.根据权利要求9所述的训练方法,其中,所述生成自然语言数据包括:
利用完成训练的所述强化学习模型,将输入的第一语言数据,翻译为第二语言数据。


11.一种自然语言的生成方法,包括:
以各历史时刻的生成词为当前时刻的状态,以当前时刻的生成词的输出为动作,将自然语言生成处理建模为强化学习模型;
根据所述强化学习模型输出的各时刻的生成词的优势函数,确定第一目标函数;
根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异,确定第二目标函数;
根据所述第一目标函数、所述第二目标函数的加权平均值,训练所述强化学习模型;
利用完成训练的所述强化学习模型,生成自然语言数据。


12.根据权利要求11所述的生成方法,其中,所述生成自然语言数据包括:
利用完成训练的所述强化学习模型,将输入的第一语言数据,翻译为第二语言数据。


13.一种自然语言生成模型的训练装置,包...

【专利技术属性】
技术研发人员:程维
申请(专利权)人:北京沃东天骏信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1