【技术实现步骤摘要】
本专利技术属于语言文字处理及信息检索
,具体涉及。
技术介绍
多文档摘要是自然语言处理领域的一个核心问题,近年来被广泛应用于文本/网站(Web)内容检索等应用中。例如,Google、百度等搜索引擎都提供了新闻服务,通过采集网络上的新闻信息形成多个新闻专题,为了方便用户浏览感兴趣的新闻专题,需要利用多文档摘要技术为每个新闻专题生成一个简明扼要的摘要。多文档摘要的困难在于不同文档中包含的信息存在很大程度的重复和冗余,因此一个好的多文档摘要方法要能有效地融合不同文档中的有效信息,即既要使生成的文档摘要保留原文档中的主要信息,又要使文档摘要中的信息保持一定的新颖性。近年来,多文档摘要已经成为自然语言处理领域和信息检索领域的热门研究课题,其研究进展反映在一系列关于自动文档摘要的学术会议上,包括NTCIR,DUC以及ACL,COLING和SIGIR. 概括来说,多文档摘要的方法可分为基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。基于句子抽取的方法比较简单实用,不需要利用深层的自然语言理解技术;该方法在对文本进行分句之后,对每个句子赋予一定权重,反映其重要性,然后选取权重最大的若干个句子形成摘要。基于句子生成的方法则需要利用深层的自然语言理解技术,在对原文档进行句法、语义分析之后,利用信息抽取或自然语言生成技术产生新的句子,从而形成摘要。目前大部分多文档摘要的方法都是基于句子抽取技术,现有文献中也记载了多篇关于多文档摘要的方法。文章Centroid-based summarizationof multiple do ...
【技术保护点】
一种基于句子关系图的多文档摘要方法,包括以下步骤:(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度;(3)对上述句子进行差异性惩罚,得到 每个句子的最终权重值;(4)选择权重值大的句子形成摘要。
【技术特征摘要】
1.一种基于句子关系图的多文档摘要方法,包括以下步骤(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度;(3)对上述句子进行差异性惩罚,得到每个句子的最终权重值;(4)选择权重值大的句子形成摘要。2.如权利要求1所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤(1)中对句子集合S构建句子关系图时,包括以下步骤1)构建初始句子关系图;对S中任意两个句子si和sj利用下列余弦公式计算相似度值aff(si,sj)=cos(siρ,sjρ)=siρ·sjρ||siρ||·||sjρ||···(1)]]>其中每个句子向量的每一维为句子中的一个词,词tj权重为tfij*isfj,tfij为词tj在句子si中的频率,isfj为词tj的倒排句子频率,也就是1+log(N/ni),其中N是句子集合中句子的数量,ni是包含词tj的句子的数量;如果aff(si,sj)>afft,那么在si和sj之间建立一条连接,也就是在图中si和sj之间添加一条边,上述的afft是一个阈值;得到的初始句子关系图的邻接矩阵为M=(Mi,j)n×n定义如下 2)句子关系扩散;3)区分文档内句子关系和文档间句子关系。3.如权利要求2所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤2)中句子关系扩散时,采用如下方法,从而得到接近真实语义的句子关系图对初始句子关系图的邻接矩阵M进行关系扩散之后得到的新邻接矩阵定义如下M^=Σt=1∞γt-1Mt···(3)]]>其中γ(0<γ<1)是衰减因子;Mt是步骤1)得到的邻接矩阵M的t次幂矩阵,其中t为正整数;矩阵 经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵M(=(M(i,j)n×n]]>4.如权利要求3所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤2)中句子关系扩散时,衰减因子γ设为0.9,t设定为5。5.如权利要求3或4所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤3)中区分文档内句子关系和文档间句子关系时,采用如下方法,赋予不同类型关系不同的贡献权重首先将根据(4)式得到的矩阵 进行如下分解M(=M(intra+M(Inter···(5)]]>其中 为仅包含文档内句子关系的邻接矩阵,也就是令文档间句子关系对应的元素为O; 为仅包含文档间句子关系的邻接矩阵,也就是令文档内句子关系对应的元素为O;两个属于同一文档的句子之间的链接关系称为文档内句子关系,而两个分属不同文档的句子之间的链接关系称为文档间句子关系;对文档内句子关系和文档间句子关系进行区分,赋予不同的权重得到新的矩阵为M~=αM(intra+βM(Inter···(6)]]>其中α,β是区分文档内句子关系...
【专利技术属性】
技术研发人员:万小军,杨建武,吴於茜,陈晓鸥,
申请(专利权)人:北大方正集团有限公司,北京大学,北京北大方正技术研究院有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。