一种基于文本相似关系的紧凑性文本提取方法技术

技术编号：14129221 阅读：317 留言：0更新日期：2016-12-09 17:31

本发明专利技术涉及一种基于文本相似关系的紧凑性文本提取方法，其特征在于包括以下步骤：1)根据输入文本集合T计算输入文本相似矩阵；2)标识输入文本中的处理文本和待处理文本；3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构，构造过程从树状结构的最底层开始，逐层向上，最终到达树状结构的最顶层；4)标识待处理文本集合Tpending中文本的类别；5)根据用户指定的代表性文本个数k提取紧凑性文本；6)输出紧凑性信息集合。本发明专利技术的紧凑性文本提取方法具有更好的内容覆盖度和更低的内容冗余度，能够更好反映原始大量文本信息的内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于文本相似关系的紧凑性文本提取方法，涉及信息提取技术应用领域。
技术介绍
在云计算、社交网络和移动互联网等新兴技术和新业态不断渗透和广泛应用的背景下，人们生活和企业管理发生了巨大的变化。信息技术的快速发展降低了信息数据的生成和传播成本，推动社会快速进入大数据时代。在大数据时代，人们需要面临大量的信息，这些信息多以文本形式出现。这些文本为人们提供了丰富的信息资源，但过量的文本也会带来极大的不便。人们难以在有限的时间内分析超过其处理能力的大量文本信息，这也是近年来业界和学术界广为关注的一个问题，即信息过载问题。例如，消费者购物过程中需要在做出购物决策之前浏览商品评论，而一个商品的在线评论数量往往可以达到数百条甚至上千条，消费者难以在有限时间浏览足够多的商品评论，导致不能做出理性的购物决策。对于企业管理者而言，在企业内部博客中每天都会有员工发布大量的博文，这些博文反映了员工舆情信息，但是由于数量巨大，这些信息难以被企业管理者分析和利用。因此有必要研究一种有效的信息提取方法，帮助人们处理大量的文本信息，应对大量信息带来的挑战。解决文本信息过载问题的常用方法是从原始大量的文本信息中提取一个小规模的文本子集，典型方法是Top-k，此类方法根据用户需求，设计不同的计算函数F确定文本信息的排序情况，然后将排序靠前的k个文本提供给用户。当前主要的搜索引擎中均使用Top-k及各种改进方法对搜索结果进行排序。这类方法存在一定的不足：Top-k方法所提供的前k个文本往往非常相似，文本之间存在大量的信息冗余；同时也不能全面的反映原始文本信息内容。随着信息量的不...
一种基于文本相似关系的紧凑性文本提取方法

【技术保护点】
一种基于文本相似关系的紧凑性文本提取方法，其特征在于包括以下步骤：1)根据输入文本集合T计算输入文本相似矩阵M；2)标识输入文本中的处理文本集合Tprocess和待处理文本集合Tpending；3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构，构造过程从树状结构的最底层开始，逐层向上，最终到达树状结构的最顶层，其中，α为阈值∈[0,1]；4)标识待处理文本集合Tpending中文本的类别；5)根据用户指定的代表性文本个数k提取紧凑性文本；6)输出紧凑性信息集合。

【技术特征摘要】
1.一种基于文本相似关系的紧凑性文本提取方法，其特征在于包括以下步骤：1)根据输入文本集合T计算输入文本相似矩阵M；2)标识输入文本中的处理文本集合Tprocess和待处理文本集合Tpending；3)采用自回溯凝聚式聚类方法将处理文本集合Tprocess中的文本构造成具有α|T|层的树状结构，构造过程从树状结构的最底层开始，逐层向上，最终到达树状...

【专利技术属性】
技术研发人员：张瑾，陈国青，卫强，郭迅华，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人