一种多文档摘要生成的方法、装置和终端制造方法及图纸

技术编号:19692072 阅读:32 留言:0更新日期:2018-12-08 11:14
本发明专利技术实施例提供一种多文档摘要生成的方法、装置和终端,涉及数据处理领域,用以解决现有技术中生成的文档摘要中的冗余信息比较多的问题。包括:获取候选句子集合,候选句子集合中包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取每个候选句子的重要性,一个候选句子的重要性与预设网络模型输出的级联注意力机制矩阵中的一个行向量的模对应;根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合;将摘要短语集合按照预置组合方式组合为摘要句子,获取多篇候选文档的摘要。

【技术实现步骤摘要】
一种多文档摘要生成的方法、装置和终端
本专利技术实施例涉及数据处理领域,尤其涉及一种多文档摘要生成的方法、装置和终端。
技术介绍
自动多文档摘要(Multi-DocumentSummarization,MDS)技术,以同一主题(例如,新闻事件)下的多篇候选文档作为输入,通过对多篇候选文档分析和加工,按照需要自动地生成特定长度摘要文本,以最大限度的描述新闻事件的中心思想,从而将新闻事件的重要信息快速、简洁的提取出来。现有技术中,一种摘要生成的方法为:利用深度神经网络模型训练语料集获取特征词的词向量表示;在语料集中根据预设查询词得到候选句子集合;根据特征词的词向量表示得到候选句子集合中不同候选句子之间的语义相似性,从而得到两个候选句子之间的相似度,以构建句子图模型;在构建句子图模型后计算候选句子权重,最后利用最大边缘相关算法生成文档摘要。然而,上述方法通过特征词的词向量表示来计算候选句子集合中不同候选句子的相似度,这样在特征词提取不准时会直接影响候选句子相似度的准确性,从而造成后续生成的文档摘要中的冗余信息比较多。
技术实现思路
本申请提供一种多文档摘要生成的方法、装置和终端,用以解决现有技术中生成的文档摘要中的冗余信息比较多的问题。为达到上述目的,本申请采用如下技术方案:第一方面,本申请提供一种多文档摘要生成的方法,包括:获取候选句子集合,候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子进行训练,获得每个候选句子的重要性,一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应,级联注意力机制矩阵为预设网络模型利用无监督学习模型优化重建误差函数过程中输出的;候选句子的重要性用于表示该候选句子所表达的含义在多篇候选文档中的重要程度;根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合;根据摘要短语集合,获得多篇候选文档的摘要。本专利技术实施例提供一种多文档摘要生成的方法,通过利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取候选句子集合中每个候选句子的重要性,由于,级联注意力机制目标序列在生成下一个状态时,会考虑从源序列中找到所依据的片段,提高解码的准确率,这样重要性高的候选句子会被重点对待,在进行无监督学习模型过程中重建误差函数才会达到极值,因此,利用级联注意力机制可以将每个候选句子在预设网络模型的不同语义维度的注意力信息进行融合,从而提升每个句子重要性估计的准确性,这样在根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合时,可以减少摘要短语集合中的冗余,从而避免生成的文档摘要中的冗余信息比较多的问题。结合第一方面,在第一方面的第一种可能的实现方式中,利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取候选句子集合中每个候选句子的重要性,包括:根据预设网络模型获取用于描述事件的m个向量;根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得每个候选句子的重要性,重建误差函数包括:每个候选句子与用于描述事件的m个向量之间的关系、候选矩阵以及候选矩阵对应的权重、候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为多篇候选文档包括的词语的数量,重建误差函数的目的在于用输出的m个向量来重构候选句子集合中的每个候选句子,误差小,说明从候选句子集合中的每个候选句子所萃取的m个向量几乎携带该事件的重要信息,而萃取关键步骤是级联注意力机制矩阵负责重点关注哪些候选句子,从而可以将级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性。结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合,包括:过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子;从过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合;根据每个候选句子各自的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性;根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。通过对候选句子按照预设规则过滤,并将过滤后的每个候选句子按照每个候选句子的重要性提取至少一个第一词性短语和至少一个第二词性短语重要性组成短语集合,并从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合,这样可以进一步避免所选择的摘要短语集合引入冗余信息。结合第一方面至第一方面的第二种可能的实现方式中任一项,在第一方面的第三种可能的实现方式中,过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子,包括:过滤掉每个候选句子中的噪音,得到每个候选句子对应的候选词语集合,每个候选句子中包括多个词语,多个词语中每个词语对应一个重要性;根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取过滤后的每个候选句子。结合词语的重要性对候选句子中重要性低于预设阈值的词语进行过滤,可以进一步避免冗余词语引入每个候选句子中。结合第一方面至第一方面的第三种可能的实现方式中任一项,在第一方面的第四种可能的实现方式中,根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语之前,本专利技术实施例提供的方法还包括:利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取多篇候选文档中包括的多个不同词语中每个词语的重要性。结合第一方面至第一方面的第四种可能的实现方式中任一项,在第一方面的第五种可能的实现方式中,利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取多篇候选文档中包括的多个不同词语中每个词语的重要性,包括:根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。结合第一方面至第一方面的第五种可能的实现方式中任一项,在第一方面的第六种可能的实现方式中,根据每个候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性,包括:获取至少一个第一词性短语和至少一个第二词性短语中每个词性短语的词频;根据每个词性短语的词频,以及每个词性的短语所在的候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。结合第一方面至第一方面的第六种可能的实现方式中任一项,在第一方面的第七种可能的实现方式中,根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选本文档来自技高网...

【技术保护点】
1.一种多文档摘要生成的方法,其特征在于,包括:获取候选句子集合,所述候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子进行训练,获得所述每个候选句子的重要性,一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应,所述级联注意力机制矩阵为所述预设网络模型利用无监督学习模型优化重建误差函数过程中输出的;所述候选句子的重要性用于表示所述候选句子所表达的含义在所述多篇候选文档中的重要程度;根据所述每个候选句子的重要性,从所述候选句子集合中选择符合预设条件的短语作为摘要短语集合;根据所述摘要短语集合获得所述多篇候选文档的摘要。

【技术特征摘要】
1.一种多文档摘要生成的方法,其特征在于,包括:获取候选句子集合,所述候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子进行训练,获得所述每个候选句子的重要性,一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应,所述级联注意力机制矩阵为所述预设网络模型利用无监督学习模型优化重建误差函数过程中输出的;所述候选句子的重要性用于表示所述候选句子所表达的含义在所述多篇候选文档中的重要程度;根据所述每个候选句子的重要性,从所述候选句子集合中选择符合预设条件的短语作为摘要短语集合;根据所述摘要短语集合获得所述多篇候选文档的摘要。2.根据权利要求1所述的方法,其特征在于,所述利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练,获取所述候选句子集合中每个候选句子的重要性,包括:根据所述预设网络模型获取用于描述所述事件的m个向量;根据所述每个候选句子、所述用于描述所述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在所述重建误差函数取值最小的情况下,将所述预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得所述每个候选句子的重要性,所述重建误差函数包括:所述每个候选句子与所述用于描述所述事件的m个向量之间的关系、所述候选矩阵以及所述候选矩阵对应的权重、所述候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为所述多篇候选文档包括的词语的数量。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述每个候选句子的重要性,从所述候选句子集合中选择符合预设条件的短语作为摘要短语集合,包括:过滤掉所述每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子;从所述过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合;根据所述每个候选句子各自的重要性,计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性;根据所述每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从所述短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。4.根据权利要求3所述的方法,其特征在于,所述过滤掉所述每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子,包括:过滤掉所述每个候选句子中的噪音,得到所述每个候选句子对应的候选词语集合,所述每个候选句子中包括多个词语,所述多个词语中每个词语对应一个重要性;根据所述每个词语的重要性,过滤掉所述每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取所述过滤后的每个候选句子。5.根据权利要求4所述的方法,其特征在于,所述根据所述每个词语的重要性,过滤掉所述每个候选句子对应的候选词语集合中重要性低于预设阈值的词语之前,所述方法还包括:利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练,获取所述多篇候选文档中包括的多个不同词语中每个词语的重要性。6.根据权利要求5所述的方法,其特征在于,所述利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练,获取所述多篇候选文档中包括的多个不同词语中每个词语的重要性,包括:根据所述每个候选句子、所述用于描述所述事件的m个向量以及所述候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在所述重建误差函数取值最小的情况下,将所述候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。7.根据权利要求3-6任意一项所述的方法,其特征在于,所述根据所述每个候选句子的重要性,计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性,包括:获取所述至少一个第一词性短语和所述至少一个第二词性短语中每个词性短语的词频;根据所述每个词性短语的词频,以及所述每个词性短语所在的候选句子的重要性,计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。8.根据权利要求3-7任一项所述的方法,其特征在于,所述根据所述每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从所述短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合,包括:将所述至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中,在所述整数线性规划函数取极值的情况下,确定所述每个词性短语的候选权重以及所述各个词性短语之间的相似度的联系权重;一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语;所述联系权重用于确定相似的短语是否同时被选择;根据所述每个词性短语的候选权重以及所述各个词性短语之间的...

【专利技术属性】
技术研发人员:李丕绩吕正东李航
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1