一种多文档摘要生成的方法、装置和终端制造方法及图纸

技术编号：19692072 阅读：32 留言：0更新日期：2018-12-08 11:14

本发明专利技术实施例提供一种多文档摘要生成的方法、装置和终端，涉及数据处理领域，用以解决现有技术中生成的文档摘要中的冗余信息比较多的问题。包括：获取候选句子集合，候选句子集合中包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子；利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练，获取每个候选句子的重要性，一个候选句子的重要性与预设网络模型输出的级联注意力机制矩阵中的一个行向量的模对应；根据每个候选句子的重要性，从候选句子集合中选择符合预设条件的短语作为摘要短语集合；将摘要短语集合按照预置组合方式组合为摘要句子，获取多篇候选文档的摘要。

全部详细技术资料下载

【技术实现步骤摘要】
一种多文档摘要生成的方法、装置和终端
本专利技术实施例涉及数据处理领域，尤其涉及一种多文档摘要生成的方法、装置和终端。
技术介绍
自动多文档摘要(Multi-DocumentSummarization，MDS)技术，以同一主题(例如，新闻事件)下的多篇候选文档作为输入，通过对多篇候选文档分析和加工，按照需要自动地生成特定长度摘要文本，以最大限度的描述新闻事件的中心思想，从而将新闻事件的重要信息快速、简洁的提取出来。现有技术中，一种摘要生成的方法为：利用深度神经网络模型训练语料集获取特征词的词向量表示；在语料集中根据预设查询词得到候选句子集合；根据特征词的词向量表示得到候选句子集合中不同候选句子之间的语义相似性，从而得到两个候选句子之间的相似度，以构建句子图模型；在构建句子图模型后计算候选句子权重，最后利用最大边缘相关算法生成文档摘要。然而，上述方法通过特征词的词向量表示来计算候选句子集合中不同候选句子的相似度，这样在特征词提取不准时会直接影响候选句子相似度的准确性，从而造成后续生成的文档摘要中的冗余信息比较多。
技术实现思路
本申请提供一种多文档摘要生成的方法、装置和终端，用以解决现有技术中生成的文档摘要中的冗余信息比较多的问题。为达到上述目的，本申请采用如下技术方案：第一方面，本申请提供一种多文档摘要生成的方法，包括：获取候选句子集合，候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子；利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子进行训练，获得每个候选句子的重要性，一个候选句子的重要性与级联注意力机制矩...

【技术保护点】
1.一种多文档摘要生成的方法，其特征在于，包括：获取候选句子集合，所述候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子；利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子进行训练，获得所述每个候选句子的重要性，一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应，所述级联注意力机制矩阵为所述预设网络模型利用无监督学习模型优化重建误差函数过程中输出的；所述候选句子的重要性用于表示所述候选句子所表达的含义在所述多篇候选文档中的重要程度；根据所述每个候选句子的重要性，从所述候选句子集合中选择符合预设条件的短语作为摘要短语集合；根据所述摘要短语集合获得所述多篇候选文档的摘要。

【技术特征摘要】
1.一种多文档摘要生成的方法，其特征在于，包括：获取候选句子集合，所述候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子；利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子进行训练，获得所述每个候选句子的重要性，一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应，所述级联注意力机制矩阵为所述预设网络模型利用无监督学习模型优化重建误差函数过程中输出的；所述候选句子的重要性用于表示所述候选句子所表达的含义在所述多篇候选文档中的重要程度；根据所述每个候选句子的重要性，从所述候选句子集合中选择符合预设条件的短语作为摘要短语集合；根据所述摘要短语集合获得所述多篇候选文档的摘要。2.根据权利要求1所述的方法，其特征在于，所述利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练，获取所述候选句子集合中每个候选句子的重要性，包括：根据所述预设网络模型获取用于描述所述事件的m个向量；根据所述每个候选句子、所述用于描述所述事件的m个向量以及候选矩阵，在进行无监督学习模型过程中优化重建误差函数，在所述重建误差函数取值最小的情况下，将所述预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性，获得所述每个候选句子的重要性，所述重建误差函数包括：所述每个候选句子与所述用于描述所述事件的m个向量之间的关系、所述候选矩阵以及所述候选矩阵对应的权重、所述候选矩阵为m行×n列的矩阵，其中，m和n为正整数，n为所述多篇候选文档包括的词语的数量。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述每个候选句子的重要性，从所述候选句子集合中选择符合预设条件的短语作为摘要短语集合，包括：过滤掉所述每个候选句子中不符合预设规则的词语，获取过滤后的每个候选句子；从所述过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合；根据所述每个候选句子各自的重要性，计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性；根据所述每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性，从所述短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。4.根据权利要求3所述的方法，其特征在于，所述过滤掉所述每个候选句子中不符合预设规则的词语，获取过滤后的每个候选句子，包括：过滤掉所述每个候选句子中的噪音，得到所述每个候选句子对应的候选词语集合，所述每个候选句子中包括多个词语，所述多个词语中每个词语对应一个重要性；根据所述每个词语的重要性，过滤掉所述每个候选句子对应的候选词语集合中重要性低于预设阈值的词语，获取所述过滤后的每个候选句子。5.根据权利要求4所述的方法，其特征在于，所述根据所述每个词语的重要性，过滤掉所述每个候选句子对应的候选词语集合中重要性低于预设阈值的词语之前，所述方法还包括：利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练，获取所述多篇候选文档中包括的多个不同词语中每个词语的重要性。6.根据权利要求5所述的方法，其特征在于，所述利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练，获取所述多篇候选文档中包括的多个不同词语中每个词语的重要性，包括：根据所述每个候选句子、所述用于描述所述事件的m个向量以及所述候选矩阵，在进行无监督学习模型过程中优化重建误差函数，在所述重建误差函数取值最小的情况下，将所述候选矩阵中每一列的列向量的模作为一个词语的重要性，获得每个词语的重要性。7.根据权利要求3-6任意一项所述的方法，其特征在于，所述根据所述每个候选句子的重要性，计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性，包括：获取所述至少一个第一词性短语和所述至少一个第二词性短语中每个词性短语的词频；根据所述每个词性短语的词频，以及所述每个词性短语所在的候选句子的重要性，计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。8.根据权利要求3-7任一项所述的方法，其特征在于，所述根据所述每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性，从所述短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合，包括:将所述至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中，在所述整数线性规划函数取极值的情况下，确定所述每个词性短语的候选权重以及所述各个词性短语之间的相似度的联系权重；一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语；所述联系权重用于确定相似的短语是否同时被选择；根据所述每个词性短语的候选权重以及所述各个词性短语之间的...

【专利技术属性】
技术研发人员：李丕绩，吕正东，李航，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人