当前位置: 首页 > 专利查询>东北大学专利>正文

一种面向查询的多文档自动摘要方法技术

技术编号:3765661 阅读:274 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种面向查询的多文档自动摘要方法,包括以下步骤:对查询及文档进行预处理;将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题;将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与子主题的相关度;根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重要程度,进行排序,选择前T个重要的子主题,得到与查询相关的子主题有序序列;从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。本发明专利技术方法通过主题分割技术使得摘要在有限的长度范围内,尽量包括了文档集内较为重要的信息,提供更加有针对性的服务,可以根据用户的查询主题调整摘要内容,实现与用户的互动。

【技术实现步骤摘要】

本专利技术涉及 一种自然语言的自动摘要处理技术,具体地说是 一种面向 查询的多文档自动摘要方法。
技术介绍
随着人类社会的快速变化和发展,每天都有大量的新信息产生,而互 联网技术的普及使得信息共享的程度越来越高,人们可以很容易地在网络 上发布信息,造成网上信息源过多,信息大量重复。例如,对于同一个新 闻事件,不同的新闻机构可能会发布不同的报道,但是报道的主要内容相 似乃至完全重复,区别仅在于表达方式不同而已。这种重复信息会浪费读 者的阅读时间。另一方面,同一主题下的不同文章也会涵盖一些不同的信 息。例如不同的新闻报道对事件描述的侧重点不同,而不同的评论家也会 从各自独特的视角发表对事件的观点,与公众共享。关于同一主题或相同 事件的信息甚至可能存在互相矛盾的地方,而事件的更新进展也会造成先 前报道的信息不准确,需要更正的情况。这种信息过量出现的现象称为信息过载(Information Overload )。为了从彼此重复而又互为补充的信息中提取想要的信息,需要进行大量的比较和筛选工作。搜索引擎是处理信息过载问题的 一个选择,可以根据用户的特定需求,查找到与之相关的信息,使信息处理的范围大大缩小。但是,搜索引擎技术并不能很好地解决信息过载问题。用户每输入一个查询条件,搜索引擎系统将返回成千上万的相关网页。虽然用户期望的信息很有可能就存在于返回的结果里,但仍然难于迅速准确地从中找到满意的结果。为了对所査询的问题有全面的了解,用户必须对检索结果进行人工分析和总结,去除冗余信息,识别矛盾信息,摒弃错误信息,从中提炼出全面而简洁的分析 纟i果。口多文档摘要技术就是为了解决这个问题,其目的是识别多篇同主题文 档中的有用信息,压缩其中的冗余信息,生成一篇简短、流畅的摘要。多 文档摘要技术可以帮助用户快速形成对特定主题的全面了解,减少阅读时 间,提高获取信息的效率,具有很高的实用价值。根据摘要生成方法,可将现有多文档摘要方法分为两种(1) 基于摘录的方法直接摘取重要的原始句子或自然段落,按一定 顺序形成摘要。方法简单,不需太多资源和语言学知识,可移植性好,但 摘要的连贯性和全面性较差。(2) 基于语言生成的方法识别出重要的信息片段,再用语言生成技 术生成句子,形成摘要。摘要精炼、可读性较好,但对语言分析技术和语言生成模型有较高要求。根据所釆用的主要技术,可将现有多文档摘要方法分为四种(1) 基于浅层分析的方法通过一些浅层统计分析,识别文本浅层特征如关键词、位置、句子长度等来对句子打分排序。方法实现简单,不受 领域和资源限制,可移植性较好,但摘要的准确性较差。(2) 基于深层理解的方法对文本进行深层分析理解,如句法分析、 语义分析、领域本体分析等,获得较高层次的特征,更准确地识别重要信 息和重复信息。但对语言处理技术要求很高,往往受到领域限制。(3) 基于信息抽取的方法利用信息抽取技术模板,对模板进行填充, 从而识别出重要信息片段,表示成结构化形式,并利用语言生成系统生成 摘要。摘要的可读性好,冗余信息少,但模板的获取是该方法的瓶颈。(4) 基于句子压缩的方法通过现有的句子压缩技术将长句压縮成短 句。缺点是难于控制压缩比。上述各种传统的多文档摘要方法进行的是一般性摘要,即直接分析目 标文档集合的内容,生成摘要。然而,随着研究的不断深入和进展,人们 发现,虽然多文档摘要系统的处理对象是同一主题下的多篇文档,即文档 具有相同的主题,但是不同的用户对于摘要的侧重点仍有不同的要求。例 如,对于北京奥运会主场馆"鸟巢"的建设这一主题,建筑界人士可能较为关 注"鸟巢"的建造技术和安全性,环保界人士可能较为关注项目所釆用的环保 技术和对北京环境的影响,商界人士可能较为关注奥运场馆的商业运营模 式,而普通巿民更关注场馆的独特外形和人文精神。也就是说,同一个主 题下仍然有不同的信息侧面,从不同角度来论述主题的不同方面。如果能 对主题信息进一步细化,从中找出更为贴合用户特定需求的一个或多个侧 面信息形成摘要,将会为用户带来更大的便利,进一步提高用户的满意度。面向查询(query)的多文档摘要技术研究就是在这样的背景下开始的。 与一般性摘要,即查询无关的摘要技术不同,查询相关的多文档摘要技术 允许用户提交当前主题下自己最为关心的问题,并依据问题的要求和侧重 点生成摘要,使得摘要可以回答用户所提出的问题。其中问题可以看作当 前主题下用户更为关注的侧面。查询相关的多文档摘要技术的关键问题和难点是,如何识别同 一主题下 的不同侧面,即如何对文档集内描述主题不同方面的信息进行区分,并选 取查询所关注的一个或多个侧面,用于生成摘要。现有方法主要是通过对 查询进行分析和扩展,得到关键概念和特征词,然后根据文本与查询的相 关度及与文档集主题的接近程度,在文档集里筛选或检索出相关文本,形 成摘要。然而,通过分析人工书写的参考摘要,可以看出好的摘要所涉及的方面 较广,涵盖了文档集内与査询相关的多个不同事件或论点。而现有方法主 要根据句子与查询的相似度生成摘要,并不考虑摘要中的子主题分布情况,8经常造成大量摘要句来自同一子主题的现象,虽然通过计算文本重复度, 尽量防止加入内容重复的摘要句,可以从一定程度上缓解了这个问题,但 仍无法很好地保证摘要中信息的全面性。
技术实现思路
针对现有技术中面向查询的多文档摘要存在的难点及不足之处,本发 明要解决的技术问题是提供 一种利用文本分割技术识别当前主题下的不同 子主题,从多个相关子主题内选取信息,并评价子主题的重要程度的多文 档摘要方法。为解决上述技术问题,本专利技术釆用的技术方案包括以下步骤 对查询及文档进行预处理;将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题; 将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与 子主题的相关度;根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重 要程度,进行排序,选择前r个重要的子主题,得到与查询相关的子主题 有序序列;从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。所述对查询进行预处理过程如下 去除查询里的格式标记,提取出查询的主体部分; 对每个主体部分进行词根还原,去除查询里的禁用词,将余下的词作为查询的关键词,得到查询的关键词集合。所述对文档进行预处理过程如下去除每篇文档内的格式标记,提取出文档的主体部分;对每个文档中的英文文本进行词根还原,对中文文本进行分词,去除 文档内的禁用词;对每篇文档进行分句。所述的禁用词包括查询禁用词和文本禁用词,其中针对查询的预处理, 将频繁出现在查询内的无关词去掉。所述的主题分割采取算法1:算法1:通过一个反映文档词汇整体分布情况的点图来识别语义段落边 界,包括以下步骤构造点图假设某个词在文档中位置x和位置y处重复出现,则分别在 图中(x, jc),(;c,jc)和(y,力四个坐标上用 一个点标出该词,即将整篇文本表 示为一个对称的二维点列出潜在语义段落边界将文档中全部句子或自然段落边界作为潜在 语义段落边界;确定最佳语义段落边界假设万为已确定的语义段落边界集合,那么余下的所有边界都是候选语义段落边界,参与下一轮的最佳边界评选,它 们组成候选边界集合C;边界集合C中每个候选边界/,令/^^本文档来自技高网
...

【技术保护点】
一种面向查询的多文档自动摘要方法,其特征在于包括以下步骤: 对查询及文档进行预处理; 将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题; 将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与子主题的相关度 ; 根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重要程度,进行排序,选择前T个重要的子主题,得到与查询相关的子主题有序序列; 从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱靖波叶娜王会珍郑妍
申请(专利权)人:东北大学
类型:发明
国别省市:89[中国|沈阳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1