一种模型训练方法、文本生成方法、装置、介质及设备制造方法及图纸

技术编号:31229399 阅读:22 留言:0更新日期:2021-12-08 09:58
本发明专利技术公开了一种模型训练方法、文本生成方法、装置、介质及设备。其中,模型训练方法包括:获取样本文本,将所述样本文本输入至待训练的文本生成模型,获取所述编码器输出的所述样本文本中各词之间的相关性系数,以及所述解码器输出的自注意力参数和预测结果;基于所述样本文本中各词之间的相关性系数确定各词的重要性指数;基于所述各词的重要性指数、自注意力参数、所述预测结果和所述样本文本对应的标准文本生成损失函数;基于所述损失函数对所述待训练的文本生成模型进行模型参数调节,直到训练过程满足训练停止条件,得到目标文本生成模型。提高文本生成模型从输入文本中提取重要词的能力,进一步提高输出文本的质量。进一步提高输出文本的质量。进一步提高输出文本的质量。

【技术实现步骤摘要】
一种模型训练方法、文本生成方法、装置、介质及设备


[0001]本专利技术实施例涉及深度学习
,尤其涉及一种模型训练方法、文本生成方法、装置、介质及设备。

技术介绍

[0002]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。对于自动文摘系统,随着信息的快速增长,篇章级文本在篇幅和数量上的显著增长给网络信息地利用带来了新的挑战,为了更好地利用有效信息,各种信息抽取技术便由此产生。通过对文本的有效信息进行自动抽取,以此大幅提高信息的利用率。文章摘要的目的在于使用计算机从大量文本中提取关键信息,对于存在于互联网中篇幅量大,语义复杂的文本来说,这一技术更是十分重要。
[0003]生成式摘要的自动生成是自然语言处理的一个重要的开放问题,在实现本专利技术的过程中,专利技术人发现现有技术中至少存在以下技术问题:现有的方法不同程度上面临着信息冗余,不易获取显著信息,信息重复等问题。

技术实现思路

[0004]本专利技术实施例提供一种模型训练方法、文本生成本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,文本生成模型包括编码器和解码器,所述方法包括:获取样本文本,将所述样本文本输入至待训练的文本生成模型,获取所述编码器输出的所述样本文本中各词之间的相关性系数,以及所述解码器输出的自注意力参数和预测结果;基于所述样本文本中各词之间的相关性系数确定各词的重要性指数;基于所述各词的重要性指数、自注意力参数、所述预测结果和所述样本文本对应的标准文本生成损失函数;基于所述损失函数对所述待训练的文本生成模型进行模型参数调节,直到训练过程满足训练停止条件,得到目标文本生成模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述样本文本中各词之间的相关性系数确定各词的重要性指数,包括:基于各词之间的相关性系数确定各词之间的游走参数;基于所述各词之间的游走参数进行随机游走,确定所述样本文本中各词的重要性指数。3.根据权利要求2所述的方法,其特征在于,第一词与第二词之间的游走参数基于所述第一词与第二词之间的相关性系数,以及所述第一词与所述样本文本中各词的相关性系数和的比例确定。4.根据权利要求2所述的方法,其特征在于,任一词的重要性指数基于所述任一词与所述样本文本中各词的游走参数,以及各词的重要性指数确定。5.根据权利要求1所述的方法,其特征在于,所述基于所述各词的重要性指数、自注意力参数、所述预测结果和所述样本文本对应的标准文本生成损失函数,包括:基于所述各词的重要性指数、自注意力参数生成第一损失函数;基于所述预测结果中各词的预测概率和所述标准文本中的标准词生成第二损失函数;基于所述第一损失函数和所述第二损失函数得到目标损失函数。6.根据权利要求1所述方法,其特征在于,所述编码器为基于自注意力机制的第一循环网络模块,所述解码器为基于自注意力机制的第二循环网络模块。7.一种文本生成方法,其特征在于,包括:获取初始文本,将所述初始文本输入至所述目标文本生成模型,获取所述目标文本生成模型循环输出的各词的预测概率,其中,所述目标文本生成模型为如权利要...

【专利技术属性】
技术研发人员:李浩然徐松
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1