当前位置: 首页 > 专利查询>清华大学专利>正文

一种文本生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:34372690 阅读:52 留言:0更新日期:2022-07-31 11:57
本公开实施例公开了一种文本生成方法、装置、计算机设备及存储介质,方法包括:将获取的原始文本输入训练后的文本编码模型,获得文本特征信息;基于文本特征信息,结合训练后的文本解码模型,生成原始文本对应的目标文本;文本解码模型中包括文本预测图层,文本预测图层中所包括设定数量结点的结点信息通过对文本特征信息确定,且目标文本中包含的目标词以及各目标词的组合顺序,通过各所述结点的结点信息及结点间拓扑结构确定。利用该方法,实现了结点的结点信息并行确定以及所生成文本内各词的并行确定,降低了文本生成延迟,同时更好规避了所生成文本中连续重复词的出现,保证了所生成本文中上下文关联性,提高了所生成文本的生成质量。的生成质量。的生成质量。

A text generation method, device, computer equipment and storage medium

【技术实现步骤摘要】
一种文本生成方法、装置、计算机设备及存储介质


[0001]本公开实施例涉及自然语言处理
,尤其涉及一种文本生成方法、装置、计算机设备及存储介质。

技术介绍

[0002]文本生成技术是自然语言处理领域的一个重要技术。通过文本生成技术可以利用既定信息与文本生成模型生成满足特定目标的文本序列。其中,所使用的文本生成模型基于在不同应用场景(生成式阅读理解、人机对话、智能写作以及机器翻译等)下的样本数据进行训练后,就可以实现不同应用场景下的文字生成。
[0003]目前,文本生成实现中所采用的文本生成模型,所存在的一个问题是在文本生成过程中会有较高的输出延迟(输出延迟指模型接收输入到模型完全生成文本输出所需的时间延迟)。且该输出延迟与所生成文本的句子长度成线性关系。或者,在解决输出延迟问题时,又会引入新的问题,如所生产的文本可能会出现存在连续重复词,或上下文不连贯的情况。

技术实现思路

[0004]本公开实施例提供了一种文本生成方法、装置、计算机设备及存储介质,降低了所生成文本上下文不连贯性以及连续重复词,提高了所生成文本的质本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:将获取的原始文本输入训练后的文本编码模型,获得文本特征信息;基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本;其中,所述文本解码模型中包括文本预测图层,所述文本预测图层中所包括设定数量结点的结点信息通过对所述文本特征信息确定,且所述目标文本中包含的目标词以及各目标词的组合顺序,通过各所述结点的结点信息及结点间拓扑结构确定。2.根据权利要求1所述的方法,其特征在于,所述文本解码模型包括:位置信息输入层、基础解码子模型及文本预测图层;所述位置信息输入层中包括设定数量个结点位置参数,所述设定数量用于决定所述文本预测图层中所包含结点的结点数量;所述文本预测图层中所包括设定数量结点的结点信息通过各所述结点位置参数与所述文本特征信息,结合所述基础解码子模型确定。3.根据权利要求2所述的方法,其特征在于,所述基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本,包括:将所述文本特征信息及所述位置信息输入层中各所述结点位置参数,输入所述基础解码子模型;获得所述基础解码子模型输出的所述设定数量的初始文本预测向量,将各所述初始文本预测向量分别作为所述文本预测图层中各结点的结点信息;基于各所述结点构建有向无环图,确定结点间拓扑结构,并结合各结点信息确定所述原始文本的目标文本。4.根据权利要求3所述的方法,其特征在于,所述基于各所述结点构建有向无环图,确定结点间拓扑结构,并结合各结点信息确定所述原始文本的目标文本,包括:根据所述文本预测图层中各结点的结点标号,构建有向无环图,获得结点间拓扑结构;根据结点间拓扑结构及各所述结点的结点信息,确定所述文本预测图层对应的结点转移矩阵;根据各所述结点的结点信息,及所述结点转移矩阵,确定所述原始文本的目标文本。5.根据权利要求4所述的方法,其特征在于,所述根据结点间拓扑结构及各所述结点的结点信息,确定所述文本预测图层对应的结点转移矩阵,包括:针对每个结点,从结点间拓扑结构中确定所述结点有向连接的邻接结点;根据所述结点及各所述邻接结点的结点信息,确定所述结点到各邻接结点的转移概率;基于各所述转移概率形成所述文本预测图层对应的结点转移矩阵。6.根据权利要求4所述的方法,其特征在于,所述根据各所述结点的结点信息,及所述结点转移矩阵,确定所述原始文本的目标文本,包括:根据各所述结点的结点信息,通过所述文本预测图层中全连接层,确定各所述结点到预设词表中各词的匹配概率;根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词;基于各所述目标词,组合形成所述原始文本的目标文本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词,包括:根据所述结点转移矩阵中各结点对应的最大转移概率,确定至少一个预测结点;针对每个预测结点,从所述预测结点到各词的匹配概率中确定最大匹配概率,并将该最大匹配概率对应的词确定目标词。8.根据权利要求6所述的方法,其特征在于,所述根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词,包括:将起始结点标号对应的结点作为当前结点;从所述结点转移矩阵中获取所述当前结点到各邻接结点的当前转移概率;确定各所述当...

【专利技术属性】
技术研发人员:黄斐周浩黄民烈李航
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1