一种利用关联模型实现自动摘要的方法技术

技术编号:2917011 阅读:278 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种利用关联模型实现自动摘要的方法,通过统计文档中的关键词和词频信息,建立文章的“关联网络”,依据该关联网络中的关联度作为分析句子重要性的指标来确定文章中的重要句子,进而根据要求生成文档摘要;能够在速度相对较快的同时,保证自动摘要的结果比较令人满意,且对文档的通用程度比较好,而且基本原理不受语言种类限制。

【技术实现步骤摘要】

本专利技术涉及一种利用关联模型实现自动摘要的方法,可用于自动摘要以及相关的文档分析中。技术背景所谓的自动摘要就是利用计算机自动地从原始文献中提取摘要的方法。目前有四种实现自动摘要的通用方法:1.自动摘录法:它是将文本看成句子的线性排列,将句子看成词的线性序列,通过词频信息来衡量词的重要性,根据关键词的频率和关键词的数量得到句子的重要程度(权重),进而挑选重要语句得到文章的摘要。此方法的特点是通用性好,速度快,方法简单,准确性低,且文章越短准确性越低,对文章结构一无所知。2.基于理解的自动摘要法:它利用语言学知识获取语言结构,更重要的是利用领域知识判断,推理,得到摘要的意义表示,最后由意义表示生成摘要。此方法的特点是,需要有庞大的领域知识库,速度极慢,效果很好,但是由于效率问题,难以达到实用的程度,几乎没有真正意义上的实现。3.信息提取法:它先对文本进行主题识别,再选择已经编好的该领域的文档框架,对文本中有用的信息进行有限深度的分析,利用特征文本提取相关的语段或句子填充文档框架,再利用文档模板将文档框架中的内容重新组织成摘要输出。此方法的特点是,需要有庞大详尽的领域知识库,效果比较好,速度比较慢,但能够接受,目前很多商用自动文摘软件使用此方法,但是此方法通用性较差,需要大量的人来从事文档框架的分析和添加等知识库的构建工作。4.基于结构的自动摘要法:如果将文档中的各个语言单元视为节点,并在两个有语义联系的单元之间引一条边,那么就得到一个语言单元的网络。在网络中,与一个节点相连的边数成为该节点的“度”。节点的度越大,则认为节-->点在网络中越重要,进而可以生成摘要。此方法相对来说比较理想,效率与准确度都能使人比较满意。实现自动摘要需要面临的两个基本问题是:如何将文档表示成为计算机能够处理的形式;以及以何种途径从文档中自动得到所需要的摘录句子。
技术实现思路
本专利技术的目的在于提出一种基于结构的,效率与准确度皆高的自动摘要的方法。本专利技术是一种利用关联模型实现自动摘要的方法,包括以下几个步骤:(1)对文章进行预处理:基于标点,将文档切分为句子序列,统计全文词频,综合词性信息,使用关键词生成模块,得到文中的关键词与词频信息;(2)对文章进行关联模型化处理:A.关键词权值的关联度优化:若多个关键词之间出现有主题上的关联,将该种关联作为一个调节因子加到原关键词的权值上;B.句子关联化:根据关键词列表中的信息,反过来可以得到每个句子关键词的词频,依据每个句子所包含的关键词和词频信息可通过公式计算得到句子间的关联度,从而得到整个文章的句子关联网络;(3)基于句子关联网络的文章分析:A.基于文章内容主轴的分析:针对文章规模小于给定阈值的文章,可以把文章看成是句子和其关联度组成的关联网络,求出每个句子与文章内容主轴的关联度,即得到每个句子与全文的关联度,即每个句子在文章中所占的权重;B.基于文章子主题的分析:针对文章规模大于给定阈值的文章,可以把文章看成是由若干子主题构成的,每个子主题由一个句子簇构成,每个句子簇有一个句子簇的内容主轴,可以基于句子关联网络,按句子间的相关度将文档划分为表示不同子主题的句子簇序列;(4)生成摘要并输出最后,在全文或每个簇中,按句子的权重由高到低排列,根据用户需要的摘要文字的规模,依次选出权重相对较高的句子,通过用户界面输出给用户使用。-->所述的关键词关联度优化的方法指的是:若一个句子中包含关键词A和关键词B,从关键词关联库中读取该关键词的关联度,关键词B相对于关键词A的关联度为h21,关键词A相对于关键词B的关联度为h12,且其原来的权值分别为r1和r2,则计入关键词B相对于关键词A的关键词关联度后A的权值将从r1变到r1+r2*h21,计入关键词A相对于关键词B的关键词关联度后B的权值将从r2变为r2+r1*h12。在基于文章子主题的分析中,一般采用基于文章子主题分析中的“段比段划分法”;遇到较大的自然段时采用基于文章子主题分析中的“基本划分法”。所述的划分子主题的“基本划分法”指的是,根据句子关联度,先设定一个句子关联度阈值参数,当句子关联度大于这个参数时则认为两个句子属于同一个句子簇,即在同一个子主题下;同时还需要设置另一个句子簇规模阈值参数,当句子簇中的字数大于句子簇规模阈值,则认为该句子簇有效。所述的划分子主题的“段比段划分法”指的是,根据文章的自然段的划分情况,进行段与段之间的比较,将各个自然段落按其在文章中的顺序串联起来,计算文本上相邻两段的关联度,该关联度与段序号存在分布关系,对此分布以关联度的平均值作为阈值来切分出新的段落;考虑一个自然段,它与它前面紧邻的自然段的关联如果小于给定的阈值,则和前一段合并为一个主题,否则另起新的主题。在对文章预处理时,可以将文章按标题划分出多个文本块,再对每个文本块独立运用步骤(1)至(4)的摘要过程。本专利技术一种利用关联模型实现自动摘要的方法,主要是通过在文档内聚类,将文档划分为表示文档的不同子主题的句子簇,然后在句子簇内引入内容主轴,以计算得到各句子的句子权重,从而最终得到文档摘要,而不是传统自动摘录算法所使用的简单的基于词频信息计算摘要的方法,也不是传统基于结构的自动摘要所使用的对句子进行全局关联性分析的方法。本专利技术与其他方法相比,优点在于能够在速度相对较快的同时,保证自动摘要的结果比较令人满意,且对文档的通用程度比较好,而且基本原理不受语言种类限制(如中文,英文,藏文等…),从理论上来说还能解析出文章中包含-->的不同方面的主题,据测试,对于实用型文体文章的处理基本能够智能的反映文章的侧重点。附图说明图1为本专利技术的过程示意图;以下结合实施例对本专利技术作进一步详述。具体实施方式如图1所示,本专利技术一种利用关联模型实现自动摘要的方法,主要包括以下步骤:1、对文章进行预处理:去除无意义字符:先将文章中的标点和换行符替换为自定义的符号,再去除空白字符。判断标题:通过一定的方法可实现判断文章中的标题和子标题。如:两个换行符之间字符数量不多,且后一个换行符之前紧邻的字符不是标点,则可判断两换行符之间的内容为标题。切分句子:使用句子切分程序将文章按标点切分成句子序列,给每个句子一个序号,并把对应文中的位置,一并存入句子列表中。分词,统计词频:对于中文使用现有的分词模块对文章进行分词,扫描全文,统计全文词频,综合词性信息,使用关键词生成模块选出属于高频词的词性语素等能体现意义的实词,得到我们所需的关键词,在扫描过程中同时标出对应的所有句子的序号,存入关键词列表。在全文中扫描所有的符合词性要求的词语,根据词频,排除只出现一次的词语,在剩下的词语中根据用户摘要精度和速度等的要求调整最终被选取为关键词的比例。2、对文章进行关联模型化处理:关键词的关联度优化:一般意义下,计算机识别的关键词其意义是相互独立的,引入关键词的关联度优化后,某些关键词之间就建立起了关联;很多关键词自身相互之间所表达的意思也是有一定程度的重合的,即关键词本身并不独立。这样,计算机识别的关键词应该是其本身和与其有关联的关键词的意义的叠加。这将使文章原意的表达更为准确,在理论上摘要结果也更为理想。-->具体的关联方法如下:关键词B相对于关键词A的关联度为h21,关键词A相对于关键词B的本文档来自技高网
...

【技术保护点】
一种利用关联模型实现自动摘要的方法,包括以下几个步骤: (1)对文章进行预处理:基于标点,将文档切分为句子序列,统计全文词频,综合词性信息,使用关键词生成模块,得到文中的关键词与词频信息; (2)对文章进行关联模型化处理: A.关键词权值的关联度优化:若多个关键词之间出现有主题上的关联,将该种关联作为一个调节因子加到原关键词的权值上; B.句子关联化:根据关键词列表中的信息,反过来可以得到每个句子关键词的词频,依据每个句子所包含的关键词和词频信息可通过公式计算得到句子间的关联度,从而得到整个文章的句子关联网络; (3)基于句子关联网络的文章分析: A.基于文章内容主轴的分析:针对文章规模小于给定阈值的文章,可以把文章看成是句子和其关联度组成的关联网络,求出每个句子与文章内容主轴的关联度,即得到每个句子与全文的关联度,即每个句子在文章中所占的权重; B.基于文章子主题的分析:针对文章规模大于给定阈值的文章,可以把文章看成是由若干子主题构成的,每个子主题由一个句子簇构成,每个句子簇有一个句子簇的内容主轴,可以基于句子关联网络,按句子间的相关度将文档划分为表示不同子主题的句子簇序列; (4)生成摘要并输出 最后,在全文或每个簇中,按句子的权重由高到低排列,根据用户需要的摘要文字的规模,依次选出权重相对较高的句子,通过用户界面输出给用户使用。...

【技术特征摘要】
1、一种利用关联模型实现自动摘要的方法,包括以下几个步骤:(1)对文章进行预处理:基于标点,将文档切分为句子序列,统计全文词频,综合词性信息,使用关键词生成模块,得到文中的关键词与词频信息;(2)对文章进行关联模型化处理:A.关键词权值的关联度优化:若多个关键词之间出现有主题上的关联,将该种关联作为一个调节因子加到原关键词的权值上;B.句子关联化:根据关键词列表中的信息,反过来可以得到每个句子关键词的词频,依据每个句子所包含的关键词和词频信息可通过公式计算得到句子间的关联度,从而得到整个文章的句子关联网络;(3)基于句子关联网络的文章分析:A.基于文章内容主轴的分析:针对文章规模小于给定阈值的文章,可以把文章看成是句子和其关联度组成的关联网络,求出每个句子与文章内容主轴的关联度,即得到每个句子与全文的关联度,即每个句子在文章中所占的权重;B.基于文章子主题的分析:针对文章规模大于给定阈值的文章,可以把文章看成是由若干子主题构成的,每个子主题由一个句子簇构成,每个句子簇有一个句子簇的内容主轴,可以基于句子关联网络,按句子间的相关度将文档划分为表示不同子主题的句子簇序列;(4)生成摘要并输出最后,在全文或每个簇中,按句子的权重由高到低排列,根据用户需要的摘要文字的规模,依次选出权重相对较高的句子,通过用户界面输出给用户使用。2、根据权利要求1所述的一种利用关联模型实现自动摘要的方法,其特征在于:所述的关键词关联度优化的方法指的是:若一个句子中包含关键词A和关键词B,从关键词关联库中读取该关键词的关联度,关键词B相对于关键词A的关联度为h21,关键词A...

【专利技术属性】
技术研发人员:邓剑波倪显见戴云川詹天荣张森胡显茹
申请(专利权)人:新百丽鞋业深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1