训练描述文本生成模型的方法、生成描述文本的方法及装置制造方法及图纸

技术编号:19857569 阅读:16 留言:0更新日期:2018-12-22 11:42
本发明专利技术提供了一种训练描述文本生成模型的方法、生成描述文本的方法及装置,其中训练描述文本生成模型的方法包括:获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。本发明专利技术得到的描述文本生成模型能够实现通过深度理解的方式生成针对实体词的精简描述文本。

【技术实现步骤摘要】
训练描述文本生成模型的方法、生成描述文本的方法及装置
本专利技术涉及计算机应用
,特别涉及一种训练描述文本生成模型的方法、生成描述文本的方法及装置。
技术介绍
在搜索引擎的各种应用中,往往存在这样的需求,对于一个实体词的源描述文本,需要从中抽取出对该实体词的更精简的描述,所谓精简可以体现在更短、更准确和更个性化上。例如,在搜索引擎中若用户输入搜索关键词(query),则在该query对应的搜索结果页中会包含该query对应的相关实体,这些相关实体可以在搜索结果页的右侧区域显示。相关实体中每个实体词的附近(例如下方)可以存在针对该实体词的一句简短的描述,该描述可以形象地被称为“实体亮点”。如图1中所示,当用户输入query“渡渡鸟”,则可以在搜索结果页显示如图1中所示的相关实体。相关实体中,实体词“斑驴”的下方存在“已经灭绝的斑马亚种”的实体亮点。目前尚没有很好的方法能够通过深度理解的方式实现上述描述文本的生成。
技术实现思路
有鉴于此,本专利技术提供了一种训练描述文本生成模型的方法、生成描述文本的方法及装置,以便于实现通过深度理解的方式生成针对实体词的描述文本。具体技术方案如下:一方面,本专利技术提供了一种训练描述文本生成模型的方法,该方法包括:获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。根据本专利技术一具体实施方式,所述获取训练数据包括:将百科词条作为实体名;从该百科词条的百科页面的信息盒子或摘要首句中抽取所述实体名的第二描述文本;利用抽取的第二描述文本从百科页面正文中抽取对所述第二描述文本满足预设覆盖状况要求的句子作为所述实体名的第一描述文本。根据本专利技术一具体实施方式,所述从该百科词条的百科页面的信息盒子中抽取所述实体名的第二描述文本包括:依据预先设置的规则,从所述信息盒子中特定信息属性中抽取属性值作为所述第二描述文本。根据本专利技术一具体实施方式,将所述实体词和实体词的第一描述文本作为seq2seq模型的输入包括:将所述实体词的第一描述文本输入seq2seq模型的编码部分,获取所述编码部分输出的所述第一描述文本的隐含向量;将所述实体词的向量表示、所述第一描述文本的隐含向量以及预设的初始预测词输入seq2seq模型的解码部分。根据本专利技术一具体实施方式,在所述编码部分中,所述实体词的第一描述文本所包含的词语经过双向循环神经网络RNN的处理,得到所述第一描述文本的隐含向量。根据本专利技术一具体实施方式,在所述解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和输出向量ot;利用实体词的向量表示ve、当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理,得到当前时刻的上下文向量ct;利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布,和/或,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布;利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt;依次循环获取各时刻的预测词,直至得到预设的结束符,预测得到的各时刻的预测词构成所述第二描述文本。根据本专利技术一具体实施方式,所述利用实体词的向量表示ve、当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理包括:利用实体词的向量表示ve和解码部分在当前时刻生成的隐含向量st,生成当前时刻新的隐含向量set,利用所述set以及所述第一描述文本的隐含向量进行注意力机制的处理。根据本专利技术一具体实施方式,利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布包括:利用所述ot和所述ct,生成预定义的词表所包含词的概率分布作为当前时刻的第一预测概率分布。根据本专利技术一具体实施方式,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布包括:利用所述注意力机制的结果,生成所述第一描述文本所包含词的概率分布作为当前时刻的第二预测概率分布。根据本专利技术一具体实施方式,利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt包括:依据所述st,从所述第一预测概率分布和所述第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt;或者,将所述第一预测概率分布和所述第二预测概率分布进行联合,得到新的概率分布,从所述新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。另一方面,本专利技术提供了一种自动生成描述文本的方法,该方法包括:获取实体词和实体词的第一描述文本;将所述实体词和实体词的第一描述文本输入描述文本生成模型,获取所述描述文本生成模型输出的第二描述文本;其中,所述描述文本生成模型是采用上述方法预先训练得到的。根据本专利技术一具体实施方式,所述实体词作为输入搜索引擎的搜索关键词query的相关实体在所述query的搜索结果页中进行展现,且所述第二描述文本展现于所述相关实体的附近。再一方面,本专利技术还提供了一种训练描述文本生成模型的装置,该装置包括:第一获取单元,用于获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;模型训练单元,用于将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。根据本专利技术一具体实施方式,所述第一获取单元,具体用于:将百科词条作为实体名;从该百科词条的百科页面的信息盒子或摘要首句中抽取所述实体名的第二描述文本;利用抽取的第二描述文本从百科页面正文中抽取对所述第二描述文本满足预设覆盖状况要求的句子作为所述实体名的第一描述文本。根据本专利技术一具体实施方式,所述模型训练单元,具体用于:将所述实体词的第一描述文本输入seq2seq模型的编码部分,获取所述编码部分输出的所述第一描述文本的隐含向量;将所述实体词的向量表示、所述第一描述文本的隐含向量以及预设的初始预测词输入seq2seq模型的解码部分。根据本专利技术一具体实施方式,所述模型训练单元,具体用于:在所述解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和输出向量ot;利用实体词的向量表示ve和当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理,得到当前时刻的上下文向量ct;利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布,和/或,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布;利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt;依次循环获取各时刻的预测词,直至得到预本文档来自技高网...

【技术保护点】
1.一种训练描述文本生成模型的方法,其特征在于,该方法包括:获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。

【技术特征摘要】
1.一种训练描述文本生成模型的方法,其特征在于,该方法包括:获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。2.根据权利要求1所述的方法,其特征在于,所述获取训练数据包括:将百科词条作为实体名;从该百科词条的百科页面的信息盒子或摘要首句中抽取所述实体名的第二描述文本;利用抽取的第二描述文本从百科页面正文中抽取对所述第二描述文本满足预设覆盖状况要求的句子作为所述实体名的第一描述文本。3.根据权利要求2所述的方法,其特征在于,所述从该百科词条的百科页面的信息盒子中抽取所述实体名的第二描述文本包括:依据预先设置的规则,从所述信息盒子中特定信息属性中抽取属性值作为所述第二描述文本。4.根据权利要求1所述的方法,其特征在于,将所述实体词和实体词的第一描述文本作为seq2seq模型的输入包括:将所述实体词的第一描述文本输入seq2seq模型的编码部分,获取所述编码部分输出的所述第一描述文本的隐含向量;将所述实体词的向量表示、所述第一描述文本的隐含向量以及预设的初始预测词输入seq2seq模型的解码部分。5.根据权利要求4所述的方法,其特征在于,在所述编码部分中,所述实体词的第一描述文本所包含的词语经过双向循环神经网络RNN的处理,得到所述第一描述文本的隐含向量。6.根据权利要求4所述的方法,其特征在于,在所述解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和输出向量ot;利用实体词的向量表示ve、当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理,得到当前时刻的上下文向量ct;利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布,和/或,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布;利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt;依次循环获取各时刻的预测词,直至得到预设的结束符,预测得到的各时刻的预测词构成所述第二描述文本。7.根据权利要求6所述的方法,其特征在于,所述利用实体词的向量表示ve、当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理包括:利用实体词的向量表示ve和解码部分在当前时刻生成的隐含向量st,生成当前时刻新的隐含向量set,利用所述set以及所述第一描述文本的隐含向量进行注意力机制的处理。8.根据权利要求6所述的方法,其特征在于,利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布包括:利用所述ot和所述ct,生成预定义的词表所包含词的概率分布作为当前时刻的第一预测概率分布。9.根据权利要求6所述的方法,其特征在于,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布包括:利用所述注意力机制的结果,生成所述第一描述文本所包含词的概率分布作为当前时刻的第二预测概率分布。10.根据权利要求6所述的方法,其特征在于,利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt包括:依据所述st,从所述第一预测概率分布和所述第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt;或者,将所述第一预测概率分布和所述第二预测概率分布进行联合,得到新的概率分布,从所述新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。11.一种自动生成描述文...

【专利技术属性】
技术研发人员:黄际洲孙雅铭张伟王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1