基于动态划分的数据到文本的生成方法、装置及电子设备制造方法及图纸

技术编号:36729276 阅读:11 留言:0更新日期:2023-03-04 09:54
本申请涉及一种基于动态划分的数据到文本的生成方法、装置及电子设备。所述方法包括:获取结构化数据,构建基于动态划分的数据到文本的生成网络,该网络包括编码器和解码器;编码器用于对输入进行编码得到对上下文敏感的向量空间;在解码器中使用一个规划器和一个生成器交替地进行数据划分和文本生成,从而使得规划器可以感知已生成的内容动态的调整数据划分;采用无监督训练策略对网络进行训练,得到数据到文本的生成模型;获取待测结构化数据,并输入到该模型中,得到由数据生成的文本。本方法中的规划器可以根据已生成的文本及时调整数据划分,采用无监督训练网络的方法,可以解除模型对标准数据划分的依赖,从而减少数据标注成本。据标注成本。据标注成本。

【技术实现步骤摘要】
基于动态划分的数据到文本的生成方法、装置及电子设备


[0001]本申请涉及数据处理
,特别是涉及一种基于动态划分的数据到文本的生成方法、装置及电子设备。

技术介绍

[0002]数据到文本的生成是自然语言生成领域的一个经典任务,目前为止已经在很多应用中发挥了作用,包括天气预报生成、体育报道生成和传记生成。近年来,凭借着强大的表征能力,带有注意力的神经网络模型,尤其是编解码器结构,在数据到文本的生成中取得了成功的应用。而另一方面,抛却神经网络模型这些成功的应用,其在数据到文本的生成中还存在亟待解决的问题,即难以准确的生成连贯的长文本。因此,最近有工作尝试将内容选择和文本规划等过程引入到数据到文本的生成中以克服以上问题。这些方法根据提取输入内容与目标序列之间的对齐关系或序关系,并基于这些信息进行有监督训练。
[0003]当前的规划过程通常是静态的,使得规划器无法根据已生成的文本及时调整数据划分,有监督训练需要大量的有监督语料。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种基于动态划分的数据到文本的生成方法、装置及电子设备。
[0005]一种基于动态划分的数据到文本的生成方法,所述方法包括:
[0006]获取结构化数据,所述结构化数据是记录集合,包括多条记录,并将所述离散记录作为训练样本。
[0007]构建基于动态划分的数据到文本的生成网络,所述数据到文本的生成网络包括编码器和解码器;所述编码器用于对输入的记录进行预处理和词插入处理得到记录的嵌入表示,并将所述插入表示映射到对上下文敏感的向量空间;所述解码器包括规划器和生成器;所述规划器用于以句子为单位根据已生成的句子预测下一个句子的记录组,得到数据划分;所述生成器用于参照所述数据划分以词为单位按照自回归式生成句子,当生成器生成分隔符时,当前句子生成过程终止,规划器开始对下一个句子进行数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到生成的文本。
[0008]根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
[0009]获取待测结构化数据,并将所述待测结构化数据输入到所述数据到文本的生成模型中,得到由数据生成的文本。
[0010]在其中一个实施例中,所述编码器包括预处理模块、词嵌入模块和编码模块。
[0011]所述预处理模块用于根据字母序对输入的离散记录进行排序。
[0012]所述词嵌入模块用于对所述离散记录进行嵌入操作,得到记录的嵌入表示。
[0013]所述编码模块用于将记录的嵌入表示映射到对上下文敏感的向量空间。
[0014]在其中一个实施例中,根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型,包括:
[0015]将所述训练样本输入到所述编码器中,得到编码向量。
[0016]将所述编码向量输入到所述解码器中,得到由数据生成的预测文本。
[0017]根据所述训练样本和所述预测文本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
[0018]在其中一个实施例中,所述编码器的编码模块包括双向LSTM网络;
[0019]将所述训练样本输入到所述编码器中,得到编码向量,包括:
[0020]将所述训练样本输入到所述预处理模块,得到有序记录
[0021]将所述有序记录输入到所述词嵌入模块中,得到记录的嵌入表示。
[0022]将所述嵌入表示输入到所述双向LSTM网络中,得到编码向量。
[0023]在其中一个实施例中,所述规划器和所述生成器均包括单向LSTM网络。
[0024]将所述编码向量输入到所述解码器中,得到由数据生成的预测文本,包括:
[0025]将生成器的状态和尚未被选择的记录输入到规划器中,得到每个记录在给定已生成的句子和数据划分条件下被选择的概率,将所述概率大于0.5所对应的记录作为下一个句子的预测记录组;所述尚未被选择的记录为尚未被规划器划分给某个句子的记录。
[0026]将所述预测记录组输入到所述生成器中,得到已生成的句子,若是第一个句子则在句首生成起始符合,当生成器产生分隔符时,当前的句子的生成过程便终止,所述规划器则开始确定下一个句子的数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到由数据生成的预测文本;所述生成器已生成的句子的过程包括:生成记录对应的词,并在句尾生成分隔符,若是第一个句子则在句首生成起始符合。
[0027]根据所述训练样本和所述预测文本,采用无监督训练的策略和策略梯度算法对所述数据到文本的生成网络进行方向训练,得到训练好的数据到文本的生成模型。
[0028]在其中一个实施例中,每个记录在给定已生成的句子和数据划分条件下被选择的概率的计算公式为:
[0029][0030][0031]其中h'
‑1表示生成器最新的状态向量;h

k
表示规划器对句子s
k
进行规划时的状态向量;表示在前k

1个句子中尚未被选择的记录的集合;是一个条件指示函数,当给定的条件成立时返回1,否则返回0;d
h
表示状态向量维度;x
i
表示第i条记录;n是记录的数量;g
k
表示第k个记录组;P(x
i
∈g
k
|g
<k
,s
<k
)表示记录x
i
被选择进入当前的记录组g
k
的条件概率。
[0032]在其中一个实施例中,将所述嵌入表示输入到所述双向LSTM网络中,得到编码向量,包括:
[0033]将所述嵌入表述输入到所述双向LSTM网络中,通过正向LSTM进行编码,得到正向编码向量,通过反向LSTM进行编码,得到反向编码向量。
[0034]将所述正向编码向量和负向编码向量进行拼接,得到编码向量。
[0035]在其中一个实施例中,所述数据到文本的生成网络包括编码器和解码器采用神经网络结构或Transformer网络结构。
[0036]一种基于动态划分的数据到文本的生成装置,所述装置包括:
[0037]训练样本获取模块,用于获取结构化数据,所述结构化数据是记录集合,包括多条记录,并将所述离散记录作为训练样本。
[0038]基于动态划分的数据到文本的生成模型构建模块,用于构建基于动态划分的数据到文本的生成网络,所述数据到文本的生成网络包括编码器和解码器;所述编码器用于对输入的记录进行预处理和词插入处理得到记录的嵌入表示,并将所述插入表示映射到对上下文敏感的向量空间;所述解码器包括规划器和生成器;所述规划器用于以句子为单位根据已生成的句子预测下一个句子的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态划分的数据到文本的生成方法,其特征在于,所述方法包括:获取结构化数据,所述结构化数据是记录集合,包括多条记录,并将所述离散记录作为训练样本;构建基于动态划分的数据到文本的生成网络,所述数据到文本的生成网络包括编码器和解码器;所述编码器用于对输入的记录进行预处理和词插入处理得到记录的嵌入表示,并将所述插入表示映射到对上下文敏感的向量空间;所述解码器包括规划器和生成器;所述规划器用于以句子为单位根据已生成的句子预测下一个句子的记录组,得到数据划分;所述生成器用于参照所述数据划分以词为单位按照自回归式生成句子,当生成器生成分隔符时,当前句子生成过程终止,规划器开始对下一个句子进行数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到生成的文本;根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型;获取待测结构化数据,并将所述待测结构化数据输入到所述数据到文本的生成模型中,得到由数据生成的文本。2.根据权利要求1所述的方法,其特征在于,所述编码器包括预处理模块、词嵌入模块和编码模块;所述预处理模块用于根据字母序对输入的离散记录进行排序;所述词嵌入模块用于对所述离散记录进行嵌入操作,得到记录的嵌入表示;所述编码模块用于将记录的嵌入表示映射到对上下文敏感的向量空间。3.根据权利要求1所述的方法,根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型,包括:将所述训练样本输入到所述编码器中,得到编码向量;将所述编码向量输入到所述解码器中,得到由数据生成的预测文本;根据所述训练样本和所述预测文本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。4.根据权利要求2或3所述的方法,其特征在于,所述编码器的编码模块包括双向LSTM网络;将所述训练样本输入到所述编码器中,得到编码向量,包括:将所述训练样本输入到所述预处理模块,得到有序记录将所述有序记录输入到所述词嵌入模块中,得到记录的嵌入表示;将所述嵌入表示输入到所述双向LSTM网络中,得到编码向量。5.根据权利要求4所述的方法,其特征在于,所述规划器和所述生成器均包括单向LSTM网络;将所述编码向量输入到所述解码器中,得到由数据生成的预测文本,包括:将生成器的状态和尚未被选择的记录输入到规划器中,得到每个记录在给定已生成的句子和数据划分条件下被选择的概率,将所述概率大于0.5所对应的记录作为下一个句子的预测记录组;所述尚未被选择的记录为尚未被规划器划分给某个句子的记录;将所述预测记录组输入到所述生成器中,得到已生成的句子,若是第一个句子则在句首生成起始符合,当生成器产生分隔符时,当前的句子的生成过程便终止,所述规划器则开
始确定下一个句子的数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到由数据生成的预测文本;所述生成器已生成的句子的过程包括:生成记录对应的词,并在句尾生成分隔符,若是第一个句子则在句首生成起始符合;根据所述训...

【专利技术属性】
技术研发人员:李东升冯大为乔林波刘洋杨森
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1