一种基于文本相似关系的紧凑性文本提取方法技术

技术编号:14129221 阅读:317 留言:0更新日期:2016-12-09 17:31
本发明专利技术涉及一种基于文本相似关系的紧凑性文本提取方法,其特征在于包括以下步骤:1)根据输入文本集合T计算输入文本相似矩阵;2)标识输入文本中的处理文本和待处理文本;3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构,构造过程从树状结构的最底层开始,逐层向上,最终到达树状结构的最顶层;4)标识待处理文本集合Tpending中文本的类别;5)根据用户指定的代表性文本个数k提取紧凑性文本;6)输出紧凑性信息集合。本发明专利技术的紧凑性文本提取方法具有更好的内容覆盖度和更低的内容冗余度,能够更好反映原始大量文本信息的内容。

【技术实现步骤摘要】

本专利技术涉及一种基于文本相似关系的紧凑性文本提取方法,涉及信息提取技术应用领域。
技术介绍
在云计算、社交网络和移动互联网等新兴技术和新业态不断渗透和广泛应用的背景下,人们生活和企业管理发生了巨大的变化。信息技术的快速发展降低了信息数据的生成和传播成本,推动社会快速进入大数据时代。在大数据时代,人们需要面临大量的信息,这些信息多以文本形式出现。这些文本为人们提供了丰富的信息资源,但过量的文本也会带来极大的不便。人们难以在有限的时间内分析超过其处理能力的大量文本信息,这也是近年来业界和学术界广为关注的一个问题,即信息过载问题。例如,消费者购物过程中需要在做出购物决策之前浏览商品评论,而一个商品的在线评论数量往往可以达到数百条甚至上千条,消费者难以在有限时间浏览足够多的商品评论,导致不能做出理性的购物决策。对于企业管理者而言,在企业内部博客中每天都会有员工发布大量的博文,这些博文反映了员工舆情信息,但是由于数量巨大,这些信息难以被企业管理者分析和利用。因此有必要研究一种有效的信息提取方法,帮助人们处理大量的文本信息,应对大量信息带来的挑战。解决文本信息过载问题的常用方法是从原始大量的文本信息中提取一个小规模的文本子集,典型方法是Top-k,此类方法根据用户需求,设计不同的计算函数F确定文本信息的排序情况,然后将排序靠前的k个文本提供给用户。当前主要的搜索引擎中均使用Top-k及各种改进方法对搜索结果进行排序。这类方法存在一定的不足:Top-k方法所提供的前k个文本往往非常相似,文本之间存在大量的信息冗余;同时也不能全面的反映原始文本信息内容。随着信息量的不断增多,人们往往希望能够看到更为紧凑的文本子集,即小规模的文本子集能够反映原始文本信息中的绝大多数内容,而文本子集本身具有较低的内容冗余性,这也就是紧凑性文本子集。现有技术中存在某些方法能够在一定程度上解决紧凑性信息提取问题。有些通过最大覆盖的方法产生一个覆盖性集合,该集合可以覆盖原始信息的内容。但是该方法只能在分布较为均匀的数据集上表现较好的效果;同时该方法只考虑了内容覆盖,而忽略了内容冗余。例如:Hochbaum D.S.,Pathria A.,Analysis of the greedy approach in problems of maximum k-coverage(Naval Research Logistics 1998)。也有一些方法基于交互熵概念提出了一种启发式提取方法,同时对内容覆盖和内容冗余两个方面进行研究,例如:Pan F.,Wang W.,Anthony K.H.T.,Yang J.,Finding representative set from massive data(ICDM 2005),该方法只能处理属性值为布尔型的数据库信息提取,不能处理紧凑性文本信息的提取问题。
技术实现思路
针对上述问题,本专利技术的目的是提供一种基于文本相似关系的紧凑性文本提取方法,可以从内容上覆盖原始文本信息的绝大多数内容,同时该集合内部的冗余度尽量低,通过浏览紧凑性信息集合,人们可以快速的掌握原始大量文本信息的绝大多数内容。为实现上述目的,本专利技术采取以下技术方案:一种基于文本相似关系的紧凑性文本提取方法,其特征在于包括以下步骤:1)根据输入文本集合T计算输入文本相似矩阵M;2)标识输入文本中的处理文本集合Tprocess和待处理文本集合Tpending;3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构,构造过程从树状结构的最底层开始,逐层向上,最终到达树状结构的最顶层,其中,α为阈值∈[0,1];4)标识待处理文本集合Tpending中文本的类别;5)根据用户指定的代表性文本个数k提取紧凑性文本;6)输出紧凑性信息集合。进一步地,步骤1)根据输入文本集合T计算输入文本相似矩阵M的具体过程为:对于一个输入文本集合T={t1,t2,...,tn本文档来自技高网
...
一种基于文本相似关系的紧凑性文本提取方法

【技术保护点】
一种基于文本相似关系的紧凑性文本提取方法,其特征在于包括以下步骤:1)根据输入文本集合T计算输入文本相似矩阵M;2)标识输入文本中的处理文本集合Tprocess和待处理文本集合Tpending;3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构,构造过程从树状结构的最底层开始,逐层向上,最终到达树状结构的最顶层,其中,α为阈值∈[0,1];4)标识待处理文本集合Tpending中文本的类别;5)根据用户指定的代表性文本个数k提取紧凑性文本;6)输出紧凑性信息集合。

【技术特征摘要】
1.一种基于文本相似关系的紧凑性文本提取方法,其特征在于包括以下步骤:1)根据输入文本集合T计算输入文本相似矩阵M;2)标识输入文本中的处理文本集合Tprocess和待处理文本集合Tpending;3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构,构造过程从树状结构的最底层开始,逐层向上,最终到达树状...

【专利技术属性】
技术研发人员:张瑾陈国青卫强郭迅华
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1