描述文本生成模型的训练方法和装置制造方法及图纸

技术编号:22364234 阅读:61 留言:0更新日期:2019-10-23 04:44
本发明专利技术提供了一种描述文本生成模型的训练方法和装置,其中方法包括:获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;对训练数据进行预处理,得到参考描述文本对应的数据序列;利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、参考描述文本和动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。

【技术实现步骤摘要】
描述文本生成模型的训练方法和装置
本专利技术涉及计算机应用
,特别涉及一种描述文本生成模型的训练方法、装置、设备和计算机存储介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。诸如表格数据等结构化数据的阅读和理解通常是不好友且枯燥的,通常需要具有专业知识背景的人花费大量时间才能够读懂数据所表达的含义。然而,大多数领域采集和存储的均是结构化数据,例如天气数据、财经数据、交通数据等等。为了降低阅读者的门槛和节省阅读时间,需要将结构化数据转化为描述文本,使得用户能够通过描述文本获知结构化数据所表达的含义。现有针对结构化数据生成描述文本的方式主要是基于人工配置的模板,根据一定逻辑条件进行模板选择和数据填充,得到描述文本。但这种方式需要大量的专家知识才能够完成模板和逻辑条件的配置,耗费人力。
技术实现思路
有鉴于此,本专利技术提供了一种描述文本生成模型的训练方法、装置、设备和计算机存储介质,以便于利用描述文本生成模型将结构化数据生成描述文本,更加节约人力。具体技术方案如下:一方面,本专利技术提供了一种描述文本生成模型的训练方法,该方法包括:获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;对训练数据进行预处理,得到参考描述文本对应的数据序列和对该数据序列进行的动态规划标注;利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、所述参考描述文本和所述动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。根据本专利技术一优选实施方式,所述第二seq2seq模型包括编码器和第一解码器,第一解码器用于将编码器针对第一数据序列生成的中间向量,输出描述文本;该方法还包括:利用所述第一解码器的细胞状态和编码器的隐层向量进行动态规划,确定所述第一解码器生成各词语需要关注的所述第一数据序列中的数据记录信息;训练目标包括:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异以及第二seq2seq模型中动态规划结果与所述动态规划标注的结果之间的差异。根据本专利技术一优选实施方式,获取训练数据包括:从数据源获取结构化数据,并获取针对结构化数据人工标注的参考描述文本;或者,从数据源获取参考描述文本,并获取针对参考描述文本人工标注的结构化数据;或者,从数据源获取结构化数据以及该结构化数据对应的参考描述文本。根据本专利技术一优选实施方式,所述结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;所述对训练数据进行预处理,得到参考描述文本对应的数据序列包括:将结构化数据与其对应的参考描述文本进行匹配对齐,其中若参考描述文本中的句子包括数据记录中的实体词和实体值,则确认该数据记录与该句子匹配对齐;依据匹配对齐的结果确定参考描述文本对应的数据序列。根据本专利技术一优选实施方式,依据匹配对齐的结果确定参考描述文本对应的数据序列包括:将匹配对齐的句子分别输入预先训练得到的关系提取模型,得到各句子对应的关系标签;若句子对应的关系标签与该句子对齐的数据记录中的标签一致,则保留该句子对应的数据记录;否则,利用关系提取模型生成的关系标签修改该句子对应的数据记录;将参考描述文本最终得到的各数据记录构成参考描述文本对应的数据序列。根据本专利技术一优选实施方式,关系提取模型采用以下方式训练得到:获取包括文本句和对应关系标签的训练数据,文本句包括实体和实体值;将文本句作为输入、对应关系标签作为输出训练分类模型,得到关系提取模型。根据本专利技术一优选实施方式,结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;对该数据序列进行动态规划标注包括:依次将参考描述文本中的各词语与该参考描述文本对应的数据序列的各数据记录的实体值进行匹配;如果词语a与数据记录b的实体值匹配且数据记录b的实体也存在于词语a的同一句子中,那么将数据记录b在数据序列中的位置标注为词语a的动态规划标签;否则,词语a采用词语a之后且距离词语a距离最近的具有动态规划标签的词语的动态规划标签。根据本专利技术一优选实施方式,第一seq2seq模型中采用注意力机制对编码器针对结构化数据生成的中间向量进行加权处理;第二seq2seq模型中采用注意力机制和拷贝机制对编码器针对第一数据序列生成的中间向量进行加权和拷贝处理,或者采用注意力机制对编码器针对第一数据序列生成的中间向量进行加权处理。根据本专利技术一优选实施方式,所述第二seq2seq模型还包括第二解码器;第二解码器用于将所述第一解码器生成的隐层向量进行重构解码,生成第二数据序列;所述训练目标进一步包括:最小化所述第二数据序列与参考描述文本对应的数据序列之间的差异。根据本专利技术一优选实施方式,该方法还包括:对第二解码器的损失函数进行正则化平滑处理。第二方面,本专利技术提供了一种针对结构化数据生成描述文本的方法,该方法包括:获取结构化数据;将结构化数据输入描述文本生成模型,得到结构化数据对应的描述文本;其中描述文本生成模型采用如上所述的方法预先训练得到。第三方面,本专利技术提供了一种描述文本生成模型的训练装置,该装置包括:数据获取单元,用于获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;预处理单元,用于对训练数据进行预处理,得到参考描述文本对应的数据序列和对该数据序列进行的动态规划标注;第一训练单元,用于利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、所述参考描述文本和所述动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。根据本专利技术一优选实施方式,所述第二seq2seq模型包括编码器和第一解码器,第一解码器用于将编码器针对第一数据序列生成的中间向量,输出描述文本;所述第一训练单元,还用于利用所述第一解码器的细胞状态和编码器的隐层向量进行动态规划,确定所述第一解码器生成各词语需要关注的所述第一数据序列中的数据记录信息;所述第一训练单元采用的训练目标包括:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异以及第二seq2seq模型中动态规划结果与所述动态规划标注的结果之间的差异。根据本专利技术一优选实施方式,预处理单元,具体用于将结构化数据与其对应的参考描述文本进行匹配对齐;依据匹配对齐的结果确定参考描述文本对应的数据序列;其中结构化数据包括各数据记录,数据记录包括实体、实体值以及关系标签;若参考描述文本中的句子包括数据记录中的实体词和实体值,则确认该数据记录与该句子匹配对齐。根据本专利技术一优选实施方式,预处理单元,具体用于:将匹配对齐的句子分别输入预先训练得到的关系提取模型,得到各句子对应的关系标签;若句子对本文档来自技高网...

【技术保护点】
1.一种描述文本生成模型的训练方法,其特征在于,该方法包括:获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;对训练数据进行预处理,得到参考描述文本对应的数据序列和对该数据序列进行的动态规划标注;利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、所述参考描述文本和所述动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。

【技术特征摘要】
1.一种描述文本生成模型的训练方法,其特征在于,该方法包括:获取训练数据,训练数据包括:结构化数据以及各组结构化数据对应的参考描述文本;对训练数据进行预处理,得到参考描述文本对应的数据序列和对该数据序列进行的动态规划标注;利用结构化数据以及参考描述文本对应的数据序列,训练第一序列到序列seq2seq模型;利用第一seq2seq模型输出的第一数据序列、所述参考描述文本和所述动态规划标注的结果,训练第二seq2seq模型;利用训练完成的第一seq2seq模型和第二seq2seq模型,得到描述文本生成模型,描述文本生成模型用于针对输入的结构化数据生成描述文本。2.根据权利要求1所述的方法,其特征在于,所述第二seq2seq模型包括编码器和第一解码器,第一解码器用于将编码器针对第一数据序列生成的中间向量,输出描述文本;该方法还包括:利用所述第一解码器的细胞状态和编码器的隐层向量进行动态规划,确定所述第一解码器生成各词语需要关注的所述第一数据序列中的数据记录信息;训练目标包括:最小化第一数据序列与参考描述文本对应的数据序列之间的差异、第一解码器输出的描述文本与参考描述文本之间的差异以及第二seq2seq模型中动态规划结果与所述动态规划标注的结果之间的差异。3.根据权利要求1的方法,其特征在于,获取训练数据包括:从数据源获取结构化数据,并获取针对结构化数据人工标注的参考描述文本;或者,从数据源获取参考描述文本,并获取针对参考描述文本人工标注的结构化数据;或者,从数据源获取结构化数据以及该结构化数据对应的参考描述文本。4.根据权利要求1的方法,其特征在于,所述结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;所述对训练数据进行预处理,得到参考描述文本对应的数据序列包括:将结构化数据与其对应的参考描述文本进行匹配对齐,其中若参考描述文本中的句子包括数据记录中的实体词和实体值,则确认该数据记录与该句子匹配对齐;依据匹配对齐的结果确定参考描述文本对应的数据序列。5.根据权利要求4的方法,其特征在于,依据匹配对齐的结果确定参考描述文本对应的数据序列包括:将匹配对齐的句子分别输入预先训练得到的关系提取模型,得到各句子对应的关系标签;若句子对应的关系标签与该句子对齐的数据记录中的标签一致,则保留该句子对应的数据记录;否则,利用关系提取模型生成的关系标签修改该句子对应的数据记录;将参考描述文本最终得到的各数据记录构成参考描述文本对应的数据序列。6.根据权利要求5的方法,其特征在于,关系提取模型采用以下方式训练得到:获取包括文本句和对应关系标签的训练数据,文本句包括实体和实体值;将文本句作为输入、对应关系标签作为输出训练分类模型,得到关系提取模型。7.根据权利要求1所述的方法,其特征在于,结构化数据包括各数据记录,所述数据记录包括实体、实体值以及关系标签;对该数据序列进行动态规划标注包括:依次将参考描述文本中的各词语与该参考描述文本对应的数据序列的各数据记录的实体值进行匹配;如果词语a与数据记录b的实体值匹配且数据记录b的实体也存在于词语a的同一句子中,那么将数据记录b在数据序列中的位置标注为词语a的动态规划标签;否则,词语a采用词语a之后且距离词语a距离最近的具有动态规划标签的词语的动态规划标签。8.根据权利要求2的方法,其特征在于,第一seq2seq模型中采用注意力机制对编码器针对结构化数据生成的中间向量进行加权处理;第二seq2seq模型中采用注意力机制和拷贝机制对编码器针对第一数据序列生成的中间向量进行加权和拷贝处理,或者采用注意力机制对编码器针对第一数据序列生成的中间向量进行加权处理。9.根据权利要求2所述的方法,其特征在于,所述第二seq2seq模型还包括第二解码器;第二解码器用于将所述第一解码器生成的隐层向量进行重构解码,生成第二数据序列;所述训练目标进一步包括:最小化所述第二数据序列与参考描述文本对应的数据序列之间的差异。10.根据权利要求9的方法,其特征在于,该方法还包括:对第二解码器的损失函数进行正则化平滑处理。11.一种针对结构化数据生成描述文本的方法,其特征在于,该方法包括:获取结构化数据;将结构化数据输入描述文本生成模型,得到结构化数据对应的描述文本;其中描述文本生成模型采用如权利要求1至10任一权项的方法预先训练得到。12.一种描述文本生成模型的训练装置,其特征在于...

【专利技术属性】
技术研发人员:李法远彭卫华罗雨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1