一种具有综合优势的基于整数线性规划的抽取式文摘方法技术

技术编号:19177582 阅读:22 留言:0更新日期:2018-10-17 00:24
本文公开了一种具有综合优势的基于整数线性规划的抽取式文摘方法,属于自然语言处理领域。本文方法首先将抽取式文摘分成文档内容学习和文摘句抽取,对于文档内容学习分成相似性、显著性和连贯性三部分;对于文摘句抽取综合考虑文档的内容学习和冗余性,利用整数线性规划框架对文摘句进行抽取。本方法能够通过语料自动学习句子的语义表示,利用简单的数学计算方法就可以计算句子之间的相似度,对于抽取式文摘任务中的显著性、相似性、连贯性和冗余性进行深入的挖掘从而构建了高质量的文摘系统。

A comprehensive abstraction method based on integer linear programming with comprehensive advantages

In this paper, an extractive summarization method based on integer linear programming with comprehensive advantages is disclosed, which belongs to the field of natural language processing. In this paper, extractive summary is divided into three parts: document content learning and abstract sentence extraction, and document content learning is divided into three parts: similarity, saliency and coherence. This method can automatically learn the semantic representation of sentences by corpus, calculate the similarity between sentences by simple mathematical calculation method, and mine the saliency, similarity, coherence and redundancy of extractive summarization tasks to build a high-quality summarization system.

【技术实现步骤摘要】
一种具有综合优势的基于整数线性规划的抽取式文摘方法
本专利技术涉及一种具有综合优势的基于整数线性规划的抽取式文摘方法,属于自然语言处理领域。
技术介绍
随着新媒体信息的快速增长,人们可以通过广泛的来源获取和分享信息,所以网络中包含的文档正在以指数形式增长。我们正面临着不可避免的、具有挑战性的信息过载问题。为了缓解这个问题,我们需要提供及时获取各种资料的系统。搜索引擎在一定程度上解决了这个问题,用户通过提供一个指定的查询,搜索引擎会返回一个排序的文档或网页列表。然而,即使是应用最先进信息检索技术的搜索引擎也缺乏从多方面综合信息的能力,因此不能给当前用户简洁且信息丰富的响应。为了减轻人们面临的信息过载问题,必须提供一个能整合信息并及时回应的工具,目前存在的这些问题激发了人们对自动文摘系统的兴趣。自动文摘系统设计的目的是将单个文档集合或多个文档集合作为输入,然后生成一个简洁、流畅保留源文档最重要信息的文本摘要。自动文摘本质上可以看作是一个信息压缩过程,将输入的单文档或者多文档用抽取出的简明扼要的句子表示,但是这个过程中不可避免地存在信息损失,所以文摘需要保留尽可能多得相似的显著的信息。在多文档自动文摘任务中文摘的效果主要由四个方面来评估:相关性、显著性、连贯性和冗余性。相关性是指文摘内容和用户感兴趣的内容一致;显著性是指在源文档当中出现频率较高的内容;连贯性是指文摘内容表达符合逻辑,使文摘可读性较高;冗余性是指文摘中没有重复信息。其中相关性和显著性是自动文摘任务中的核心问题,连贯性和冗余性是辅助高质量文摘构建的指标。目前的自动文摘方法主要是针对相似性和显著性进行了深入研究。针对相似性传统的方法通过特征相似,比如词频、主题词、词性等特征对句子进行打分,此方法简单且易于理解,但是缺乏深层的语义理解,后来也有一些方法利用向量方法学习深层语义,但是并没有综合考虑相似性、显著性、连贯性和冗余性。针对显著性现有方法大多是基于统计,通过统计词频,句子位置,概念等信息来决定句子的重要程度。
技术实现思路
本专利技术的目的是为解决如何综合考虑相似性、显著性、连贯性和冗余性构建高质量文摘的问题,提出一种具有综合优势的基于整数线性规划的抽取式文摘方法,本方法通过语料自动学习句向量,利用数学相似度计算,统计主题显著性和句子之间的连贯性从而完成构建高质量的文摘系统。本专利技术的核心思想是:通过采用向量相似度和特征相似度结合的方法计算相似性,然后利用主题这一层次信息进行显著性计算,通过单词对互信息计算句子连贯性,最后考虑冗余性利用整数线性规划进行优化求解,综合相似性、显著性、连贯性和冗余性是的构建的文摘更加准确。为实现上述目的,本专利技术采用如下技术方案:首先进行相关定义,具体如下:定义1:query,即查询项;每一个查询项称为一个query,每一个query都是一个句子,通常代表用户关注的内容;定义2:文档集合,自动文摘包含抽取式文摘和生成式文摘,抽取式文摘又包括基于query的抽取式文摘和基于内容的抽取式文摘;抽取式文摘和生成式文摘两种文摘均包含多个文档集合;每个文档集合对应一个文档查询;每一个查询对应的文档集合为一个主题集合,记为D,且D={di|1≤i≤N},N表示文档集合D中文档的个数;定义3:文摘句集合和文摘候选句集合;对于基于query的抽取式文摘而言,每一个query对应一个文档集合,且每一个文档集合抽取出的文摘句和query内容需要相关,该抽取的文摘句组成的集合称为文摘句集合,记为S,且S={sj|1≤j≤M},M表示文摘句集合中句子的个数,sj表示文摘句集合中的一个文摘句,由于抽取式文摘的文摘句集合字数有限制,所以需要满足条件其中,l(sj)表示句子sj的长度,L表示文摘句集合的长度限制;文摘候选句集合为文档D中的所有句子,其中,文档D中的每一个句子称为一个文摘候选句,其分布式向量表示又称为句向量,文摘候选句由单词组成,单词的分布式向量表示又称为词向量;定义4:相似单词集合,集合中包含的单词都是同义词;定于5:相似性,文摘候选句集合中的句子和query的语义重叠程度和特征重叠程度统称为相似性;其中,语义重叠程度又称为向量相似度,特征重叠程度即为名词短语和动词短语的覆盖程度,又称为特征相似度;定义6:显著性,即主题显著性,是指文摘候选句集合中所有句子的主题所占比重,即主题下句子的个数越多,其对应的主题越显著;定义7:连贯性,在抽取式文摘中需要将抽取出的文摘句重新排列,连贯性是指最终排列的文摘句在语义逻辑上连贯可读;一种具有综合优势的基于整数线性规划的抽取式文摘方法,包括以下步骤:步骤一、计算每一个文摘候选句和query的相似性,首先学习句向量计算向量相似度,然后通过特征计算特征相似度,再将二者相加得到;其中向量相似度的计算选用PV算法学习句向量;特征相似度的计算选用名词短语和动词短语作为特征;其中,PV是paragraphvector的简称;PV算法是一个无监督的框架,该框架可以学习文字片段的分布式向量;其中,文字片段以句子、段落以及文档为主,且长度可变;PV算法在训练过程中,通过不断调整句向量和词向量来预测单词,直到PV算法收敛;句向量和词向量都是通过随机梯度下降和反向传播训练得来;特征相似度选用句法分析树和Kmeans算法计算;向量相似度和特征相似度的计算过程具体包括如下子步骤:步骤1.1将语料集整理成一行一句的形式输入到PV算法中进行学习句向量,具体利用余弦相似度得到向量相似度,通过公式(1)计算;其中,sj表示任意一个文摘候选句,vec(sj)表示sj的句向量,q表示query,vec(q)表示query的句向量,R(sj,q)表示sj和query的向量相似度;步骤1.2将语料集分词、学习词向量、经Kmeans进行分类以及计算特征相似度,具体包括如下子步骤:步骤1.2.1将语料集进行分词;步骤1.2.2利用word2vec算法将经过分词后的语料集学习词向量;步骤1.2.3将步骤1.2.2输出的词向量结果再经Kmeans算法进行分类,得到相似单词集合;其中,使用Kmeans算法进行分类的规则为:语义空间上相近的词向量结果便属于一个集合;步骤1.2.4计算特征相似度,具体利用名词短语和动词短语,通过如下公式(2)计算:Fej=∑np∈Qtf(np)+∑vp∈Qtf(vp)(2)其中,Fej表示第个j句子的特征相似度,特征相似度具体指的是query和文摘候选句中的名词短语和动词短语的同义词共现个数;Q表示query单词所属分类的集合,np表示sj中的名词短语,vp表示sj中的动词短语;tf(np)表示sj和query的名词短语重叠词频;tf(vp)表示sj和query的动词短语重叠词频;步骤1.3计算相似性,由向量相似度和特征相似度相加得到,通过公式(3)计算:Relej=R(sj,q)+Fej(3)其中,文摘候选句sj的特征相似度,记为Relej;步骤二、利用LDA算法计算文摘候选句的显著性;其中,利用LDA算法的原因如下:LDA是发展至今比较完备的主题模型,克服了传统主题模型的缺陷,凭借着概率理论以及贝叶斯理论基础,在文本检索、文本分类、图像识别、社交网络等领域得到了广泛的应用;步骤二,又包括如下子步骤:步骤2.1计本文档来自技高网
...

【技术保护点】
1.一种具有综合优势的基于整数线性规划的抽取式文摘方法,其特征在于:通过语料自动学习句子的向量表示,利用数学相似度计算,统计主题显著性和句子之间的连贯性从而完成构建高质量的文摘系统;核心思想是通过采用向量相似度和特征相似度结合的方法计算相似性,然后利用主题这一层次信息进行显著性计算,通过单词对互信息计算句子连贯性,最后考虑冗余性利用整数线性规划进行优化求解,综合相似性、显著性、连贯性和冗余性是的构建的文摘更加准确;首先进行相关定义,具体如下:定义1:query,即查询项;每一个查询项称为一个query,每一个query都是一个句子,通常代表用户关注的内容;定义2:文档集合,自动文摘包含抽取式文摘和生成式文摘,抽取式文摘又包括基于query的抽取式文摘和基于内容的抽取式文摘;抽取式文摘和生成式文摘两种文摘均包含多个文档集合;每个文档集合对应一个文档查询;每一个查询对应的文档集合为一个主题集合,记为D,且D={di|1≤i≤N},N表示文档集合D中文档的个数;定义3:文摘句集合和文摘候选句集合;对于基于query的抽取式文摘而言,每一个query对应一个文档集合,且每一个文档集合抽取出的文摘句和query内容需要相关,该抽取的文摘句组成的集合称为文摘句集合,记为S,且S={si|1≤i≤M},M表示文摘句集合中句子的个数,si表示文摘句集合中的一个文摘句,由于抽取式文摘的文摘句集合字数有限制,所以需要满足条件...

【技术特征摘要】
1.一种具有综合优势的基于整数线性规划的抽取式文摘方法,其特征在于:通过语料自动学习句子的向量表示,利用数学相似度计算,统计主题显著性和句子之间的连贯性从而完成构建高质量的文摘系统;核心思想是通过采用向量相似度和特征相似度结合的方法计算相似性,然后利用主题这一层次信息进行显著性计算,通过单词对互信息计算句子连贯性,最后考虑冗余性利用整数线性规划进行优化求解,综合相似性、显著性、连贯性和冗余性是的构建的文摘更加准确;首先进行相关定义,具体如下:定义1:query,即查询项;每一个查询项称为一个query,每一个query都是一个句子,通常代表用户关注的内容;定义2:文档集合,自动文摘包含抽取式文摘和生成式文摘,抽取式文摘又包括基于query的抽取式文摘和基于内容的抽取式文摘;抽取式文摘和生成式文摘两种文摘均包含多个文档集合;每个文档集合对应一个文档查询;每一个查询对应的文档集合为一个主题集合,记为D,且D={di|1≤i≤N},N表示文档集合D中文档的个数;定义3:文摘句集合和文摘候选句集合;对于基于query的抽取式文摘而言,每一个query对应一个文档集合,且每一个文档集合抽取出的文摘句和query内容需要相关,该抽取的文摘句组成的集合称为文摘句集合,记为S,且S={si|1≤i≤M},M表示文摘句集合中句子的个数,si表示文摘句集合中的一个文摘句,由于抽取式文摘的文摘句集合字数有限制,所以需要满足条件其中,l(si)表示句子si的长度,L表示文摘句集合的长度限制;文摘候选句集合为文档D中的所有句子,其中,文档D中的每一个句子称为一个文摘候选句,其分布式向量表示又称为句向量,文摘候选句由单词组成,单词的分布式向量表示又称为词向量;定义4:相似单词集合,集合中包含的单词都是同义词;定于5:相似性,文摘候选句集合中的句子和query的语义重叠程度和特征重叠程度统称为相似性;其中,语义重叠程度又称为向量相似度,特征重叠程度即为名词短语和动词短语的覆盖程度,又称为特征相似度;定义6:显著性,即主题显著性,是指文摘候选句集合中所有句子的主题所占比重,即主题下句子的个数越多,其对应的主题越显著;定义7:连贯性,在抽取式文摘中需要将抽取出的文摘句重新排列,连贯性是指最终排列的文摘句在语义逻辑上连贯可读;一种具有综合优势的基于整数线性规划的抽取式文摘方法,包括以下步骤:步骤一、计算每一个文摘候选句和query的相似性,具体通过分别计算向量相似度和特征相似度,再将二者相加得到;其中,向量相似度的计算选用PV算法学习句子向量;特征相似度的计算选用名词短语和动词短语作为特征;其中,PV是paragraphvector的简称;PV算法是一个无监督的框架,该框架可以学习文字片段的分布式向量;其中,文字片段以句子、段落以及文档为主,且长度可变;PV算法在训练过程中,通过不断调整句向量和词向量来预测单词,直到PV算法收敛;句向量和词向量都是通过随机梯度下降和反向传播训练得来;特征相似度选用句法分析树和Kmeans算法计算;步骤二、利用LDA算法计算文摘候选句的显著性;其中,利用LDA算法的原因如下:LDA是发展至今比较完备的主题模型,克服了传统主题模型的缺陷,凭借着概率理论以及贝叶斯理论基础,在文本检索、文本分类、图像识别、社交网络等领域得到了广泛的应用;步骤三、计算连贯性,利用互信息来计算文摘候选句之间的连贯性;步骤四、基于步骤一学习的句向量计算文摘候选句之间的相似度;步骤五、通过整数线性规划对相似性、显著性、连贯性及冗余性组成的综合优势进行全局最优化求解,进行文摘句抽取,得到文摘句集合;至此,从步骤一到步骤五,选择出了语义相似、主题显著、语句连贯并无冗余信息的高质量文摘句。2.根据权利要求1所述的一种具有综合优势的基于整数线性规划的抽取式文摘方法,其特征在于:步骤一中的向量相似度和特征相似度的计算过程具体包括如下子步骤:步骤1.1将语料集整理成一行一句的形式输入到PV算法中进行学习句向量,具体利用余弦相似度得到向量相似度,通过公式(1)计算;其中,sj表示任意一个文摘候选句,vec(sj)表示sj的句向量,q表示query,vec(q)表示query的句...

【专利技术属性】
技术研发人员:高扬黄河燕魏林静
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1