一种基于句子关系图的多文档摘要方法技术

技术编号:2850211 阅读:226 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明专利技术所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明专利技术所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。

【技术实现步骤摘要】

本专利技术属于语言文字处理及信息检索
,具体涉及。
技术介绍
多文档摘要是自然语言处理领域的一个核心问题,近年来被广泛应用于文本/网站(Web)内容检索等应用中。例如,Google、百度等搜索引擎都提供了新闻服务,通过采集网络上的新闻信息形成多个新闻专题,为了方便用户浏览感兴趣的新闻专题,需要利用多文档摘要技术为每个新闻专题生成一个简明扼要的摘要。多文档摘要的困难在于不同文档中包含的信息存在很大程度的重复和冗余,因此一个好的多文档摘要方法要能有效地融合不同文档中的有效信息,即既要使生成的文档摘要保留原文档中的主要信息,又要使文档摘要中的信息保持一定的新颖性。近年来,多文档摘要已经成为自然语言处理领域和信息检索领域的热门研究课题,其研究进展反映在一系列关于自动文档摘要的学术会议上,包括NTCIR,DUC以及ACL,COLING和SIGIR. 概括来说,多文档摘要的方法可分为基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。基于句子抽取的方法比较简单实用,不需要利用深层的自然语言理解技术;该方法在对文本进行分句之后,对每个句子赋予一定权重,反映其重要性,然后选取权重最大的若干个句子形成摘要。基于句子生成的方法则需要利用深层的自然语言理解技术,在对原文档进行句法、语义分析之后,利用信息抽取或自然语言生成技术产生新的句子,从而形成摘要。目前大部分多文档摘要的方法都是基于句子抽取技术,现有文献中也记载了多篇关于多文档摘要的方法。文章Centroid-based summarizationof multiple documents(该文作者是D.R.Radev,H.Y.Jing,M.Stysand D.Tam,发表于2004年出版的期刊Information Processing andManagement)公开了一种基于中心点的句子抽取方法,该方法是目前比较流行的一种基于句子抽取的摘要方法,MEAD是利用该方法实现的一个原型摘要系统,它在赋予句子权重的过程中,综合考虑了句子级以及句子之间的特征,包括类簇中心点,句子位置,TF*IDF等。文章From Single toMulti-document SummarizationAPrototype System and its Evaluation(作者C.-Y.Lin and E.H.Hovy,发表于2002年出版的期刊Proceedingsof the 40th Anniversary Meeting of the Association for ComputationalLinguistics(ACL-02),)公开了一种名为NeATS的句子抽取系统,该系统是ISI开发的一个多文档摘要系统,它源于单文档摘要系统-SUMMARIST,该系统选择重要句子时考虑了句子位置、词语频率、主题签名和词语类簇等多个特征,同时利用MMR技术对句子消重。文章Cross-documentsummarization by concept classification(作者H.Hardy,N.Shimizu,T.Strzalkowski,L.Ting,G.B.Wise,and X.Zhang,发表于2003年出版的期刊Proceedings of SIGIR’02)公开了一种名为XdoX的句子抽取系统,该系统适合为大规模的文档集生成摘要,它首先通过段落聚类检测出文档集中最重要的主题,然后抽取反映重要主题的句子形成摘要。文章Topic themes for multi-document summarization(作者S.Harabagiuand F.Lacatusu,发表于2005年出版的期刊Proceedings of SIGIR’05)公开了Harabagiu和Lacatusu的方法,该方法探讨了五种不同的多文档主题表现方式并且提出了一种新的主题表现方式。基于图结构的方法也被用来对句子的重要性进行排序,文章Summarizing Similarities and Differences Among Related Documents(作者I.Mani and E.Bloedorn,发表于2000年出版的期刊InformationRetrieval)公开了一种名为WebSumm的方法,该方法利用图连接模型,根据与多个其他顶点相连接的顶点具有较高重要性这个假设来对句子的重要性进行排序。文章LexPageRankprestige in multi-document textsummarization(作者G.Erkan and D.Radev,发表于2004年出版的期刊Proceedings of the Conference on Empirical Methods in NaturalLanguage Processing(EMNLP’04))公开了一种名为LexPageRank的方法,该方法首先构建句子连接矩阵,然后基于类似PageRank的算法来计算句子重要性。文章Alanguage independent algorithm for single and multipledocument summarization(作者R.Mihalcea and P.Tarau,发表于2005年出版的期刊Proceedings of the Second International JointConference on Natural Language Processing(IJCNLP’05))公开了一种名为Mihalcea和Tarau的方法,该方法也提出了一个类似的基于PageRank和HITS的算法计算句子重要性。以上基于图结构的方法没有采用有效的措施保持摘要中句子的新颖性。同时,上述基于图结构的方法没有区分句子之间不同类型的关系,这些不同类型的关系对句子重要性的计算具有不同的贡献。最后,现有的上述方法只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间关系具有可扩散的特性。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的是提供,该方法能够实现在抽取句子的过程中既能考虑句子的信息丰富程度,又能考虑其新颖程度,从而为多个文档形成更好的摘要。为达到以上目的,本专利技术采用的技术方案是,包括以下步骤(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度(Information Richness);(3)对上述句子进行差异性惩罚,得到每个句子的最终权重值;(4)选择权重值大的句子形成摘要。进一步,为使本专利技术获得更好的专利技术效果,步骤(1)中对句子集合S构建句子关系图时,具体方法如下1)构建初始句子关系图;对S中任意两个句子si和sj利用下列余弦公式计算相似度值aff(si,sj)=cos(sρi,sρj)=sρi·sρj||sρi||·||sρj||---(1)]]>其中每个句子向量的每一维为句本文档来自技高网
...

【技术保护点】
一种基于句子关系图的多文档摘要方法,包括以下步骤:(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度;(3)对上述句子进行差异性惩罚,得到 每个句子的最终权重值;(4)选择权重值大的句子形成摘要。

【技术特征摘要】
1.一种基于句子关系图的多文档摘要方法,包括以下步骤(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度;(3)对上述句子进行差异性惩罚,得到每个句子的最终权重值;(4)选择权重值大的句子形成摘要。2.如权利要求1所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤(1)中对句子集合S构建句子关系图时,包括以下步骤1)构建初始句子关系图;对S中任意两个句子si和sj利用下列余弦公式计算相似度值aff(si,sj)=cos(siρ,sjρ)=siρ·sjρ||siρ||·||sjρ||···(1)]]>其中每个句子向量的每一维为句子中的一个词,词tj权重为tfij*isfj,tfij为词tj在句子si中的频率,isfj为词tj的倒排句子频率,也就是1+log(N/ni),其中N是句子集合中句子的数量,ni是包含词tj的句子的数量;如果aff(si,sj)>afft,那么在si和sj之间建立一条连接,也就是在图中si和sj之间添加一条边,上述的afft是一个阈值;得到的初始句子关系图的邻接矩阵为M=(Mi,j)n×n定义如下 2)句子关系扩散;3)区分文档内句子关系和文档间句子关系。3.如权利要求2所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤2)中句子关系扩散时,采用如下方法,从而得到接近真实语义的句子关系图对初始句子关系图的邻接矩阵M进行关系扩散之后得到的新邻接矩阵定义如下M^=Σt=1∞γt-1Mt···(3)]]>其中γ(0<γ<1)是衰减因子;Mt是步骤1)得到的邻接矩阵M的t次幂矩阵,其中t为正整数;矩阵 经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵M(=(M(i,j)n×n]]>4.如权利要求3所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤2)中句子关系扩散时,衰减因子γ设为0.9,t设定为5。5.如权利要求3或4所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤3)中区分文档内句子关系和文档间句子关系时,采用如下方法,赋予不同类型关系不同的贡献权重首先将根据(4)式得到的矩阵 进行如下分解M(=M(intra+M(Inter···(5)]]>其中 为仅包含文档内句子关系的邻接矩阵,也就是令文档间句子关系对应的元素为O; 为仅包含文档间句子关系的邻接矩阵,也就是令文档内句子关系对应的元素为O;两个属于同一文档的句子之间的链接关系称为文档内句子关系,而两个分属不同文档的句子之间的链接关系称为文档间句子关系;对文档内句子关系和文档间句子关系进行区分,赋予不同的权重得到新的矩阵为M~=αM(intra+βM(Inter···(6)]]>其中α,β是区分文档内句子关系...

【专利技术属性】
技术研发人员:万小军杨建武吴於茜陈晓鸥
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正技术研究院有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1