一种考虑概念抽象度的浅层分析自动文档综述方法技术

技术编号:2917499 阅读:296 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种考虑概念抽象度的浅层分析自动文档综述方法,属于信息检索、情报科学领域。其特征在于:首先对于文档进行预处理并设定抽象度值,然后通过多义词消歧处理把文档中的句子用概念矢量模型表示,再将句子聚类成多个主题相似的簇,接着根据从文集中抽取出的主题词个数确定综述的压缩比,之后确定句子的抽象度,继而依据I↓[MMRA]值依次从聚类簇中选取压缩比要求数量个文摘句,最后对抽取的文摘句进行排序并输出综述文档。有益效果:实现了考虑抽象度的自动文档综述,降低自动综述文摘因概念包含关系引起的信息冗余或缺失;方法可以根据主题的数量自适应调整文摘的长度,还可以根据用户的抽象度需求调节综述的归纳度,具有很好的适应性。

【技术实现步骤摘要】

本专利技术涉及一种考虑概念抽象度的浅层分析自动文档综述方法,属于信息检索、情报科学领域。
技术介绍
自动文档综述就是利用计算机对多篇文档编制文摘的技术,它将同一主题的多个文档去除冗余信息,按照一定的压缩比将主要内容有机地融合成一篇简短的综述文档,为人们廉价、迅速和准确地了解文集内容提供方便。随着互联网的发展和普及,自动文档综述被用作搜索引擎的后处理,它能够将搜索引擎返回的大量检索结果生成为综述提交给用户,显著地提高用户信息获取的效率。自动文档综述技术从实现方法上可以分为浅层分析法和深层分析法,其中浅层分析法利用统计特征和语言学特征获取主题信息,不需要对文档进行“理解”而易于工程实现,是目前自动文档综述的主流方法。浅层分析自动综述通常采用从原文中摘取句子组成综述文档的方法实现。方法将文档视为句子的线性序列,将句子视为词的线性序列,操作分4步进行:(1)计算文集中词的权值;(2)根据词的权值计算句子的权值;(3)对原文中的所有句子按句子权值高低降序排列,选择权值最高的若干句子为文摘句;(4)将选定文摘句按照一定顺序排列输出形成综述文档。整个过程中,(1)、(2)、(3)步的权值计算和文摘句选择最为关键,传统的方法主要是依据词频、标题、位置、句法结构、线索词、指示性短语等特征来实现该计算和选择,力求组成综述的各个文摘句之间没有语义重复,信息冗余尽可能的小,进而达到在有限的字数内传达出最大量信息的目的。然而,在实际的文档句子中,经常会出现大量具有包含关系(part-of、kind-of等)的概念,它们在语义上存在重叠。可是,使用上述传统方法进行自动综述时这一现象会被忽视,而得不到符合文档综述概念归纳原则的处理,这就会造成信息的冗余或缺失。例如:“买苹果”、“买香蕉”、“买橘子”,其语义都可包含在“买水果”这句话中,可是当这4个句子都出现在文集-->中,现有自动文档综述方法无法确保选出“买水果”来对其它句子进行概括归纳,从而导致信息冗余或缺失。另外,在对搜索引擎返回的检索结果进行自动综述处理时,由于不同用户对归纳程度的要求不尽相同,因而上例中的归纳处理也应当与之相适应。例如:当人们只想知道检索结果文集的大体概况时,则归纳程度高,会从“买苹果”、“买香蕉”、“买橘子”、“买商品”、“买水果”中选择“买商品”作为综述文摘句;如果人们想了解更具体的细节则可以降低归纳程度,从5句话中选择“买水果”作为综述文摘句。然而,现有浅层分析自动综述也不具备这样的调节能力。从以上背景介绍可以看出,现有浅层分析自动文档综述无法对具有包含关系的概念进行归纳处理,更不具有对概念归纳度的调节能力,具体表现为生成综述信息冗余量偏大或信息缺失,算法无归纳调节的功能。
技术实现思路
要解决的技术问题为了消除现有浅层分析自动文档综述方法不具有概念归纳的综述能力,无概念归纳调节功能的缺陷,本专利技术提出一种考虑概念抽象度的浅层分析自动文档综述方法,可以根据概念抽象度进行自动文档综述的概念归纳和归纳度调节。技术方案本专利技术的基本思想是:参考知识本体所体现的概念抽象度来选择文摘句。生成综述的过程实际上就是对原文内容的选择和归纳的过程。这里的归纳可以将信息压缩为更抽象的形式,但由于统计特征和语言学特征不提供相关支持,所以传统综述方法很难做到。为此,本专利技术考虑利用知识本体的概念层级关系所体现的概念抽象度(如图1),来指导机器实现满足概念归纳原则的文摘句选择,从而降低信息冗余度。在一定抽象度值条件下,当句子的抽象度过低或过高时,降低其被选入综述的可能性,反之增加该可能性。由于本体描述了从最抽象概念到最具体概念的全部渐变过程,因而可以在这个连续的变化过程中任意调整一个抽象度值来控制上述文摘句的选取,从而实现自动综述的归纳度调节功能。本专利技术的技术特征在于步骤如下(如图2):-->步骤1:获得数据并设定抽象度值:将查询Q提交给搜索引擎,返回查询结果Web文档集D={d1,d2,…,dk,…本文档来自技高网
...

【技术保护点】
一种考虑概念抽象度的浅层分析自动文档综述方法,其特征在于步骤如下: 步骤1:获得数据并设定抽象度值:将查询Q提交给搜索引擎,返回查询结果Web文档集D={d↓[1],d↓[2],…,d↓[k],…},对D中的诸文档进行提取文本内容、去除停用词与网页标记、词根还原处理后,以文本文档句子为基本单位,按照文本文档句子出现的次序,顺序存储为集合R={S↓[1]↑[d↓[1]],…,S↓[l]↑[d↓[k]],…},其中:S↓[l]↑[d↓[k]]是序号为l、文本文档d↓[k]包含的一个文本文档句子,集合R包含的文本文档句子个数为N=|R|;然后设定文档综述的抽象度值θ,0≤θ≤1,θ值随抽象度增加而增大; 步骤2:将文本文档句子表示为概念模型矢量:先将R中所有出现的词汇转换为概念,将得到的所有概念无重复地组成概念集合C={c↓[1],c↓[2],…,c↓[i],…},其中c↓[i]为一个概念,共计得到n=|C|个概念,然后以C为特征,仿照tf.idf加权方案将R表示为N个概念模型矢量组成的集合*={*,…,*,…},其中*={w↓[1]↑[(l)],…,w↓[l]↑[(l)],…w↓[n]↑[(l)]};所述转换中,若词汇为多义词,则采用基于本体的多义词消歧处理实现,若词汇为单义词或为未在本体中出现的未登录词,则采用以词汇自身作为其概念的方法实现;所述文本文档句子概念模型矢量*的分量w↓[l]↑[(l)]=freq(c↓[i]).tf↓[i].log(|D|/n↓[i])为c↓[i]在S↓[l]↑[d↓[k]]中的权重,其中n↓[i]为D中有词汇可转换为c↓[i]的文本文档数目,log(|D|/n↓[i])是c↓[i]在D中的逆频率,tf↓[i]是c↓[i]对应词汇在d↓[k]中的出现频率,freq(c↓[i])是c↓[i]在S↓[l]↑[d↓[k]]中的频率; 步骤3:将主题近似的文本文档句子进行聚集:对*中所有文本文档句子的概念矢量进行基于文本文档句子语义相似度的合成聚类,每次合成时计算合成前后,类的半偏相关系数HDCC,当HDCC大于阀值μ时聚类停止,0<μ≤1;聚类完成后得到由主题近似文本文档句子组成的聚类簇集合{LT↓[1],…,LT↓[o]};所述文本文档句子语义相似度sim(*↓[1],*↓[2])=2×sameWC(*↓[1],*↓[2])/len(*↓[1])+len(*↓[2]),其中*↓[1]与*↓[...

【技术特征摘要】
1.一种考虑概念抽象度的浅层分析自动文档综述方法,其特征在于步骤如下:步骤1:获得数据并设...

【专利技术属性】
技术研发人员:郭雷王晓东方俊
申请(专利权)人:西北工业大学
类型:发明
国别省市:87[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1