用于文档聚类的方法及系统技术方案

技术编号:8105707 阅读:294 留言:0更新日期:2012-12-21 04:26
本发明专利技术提供一种用于文档聚类的方法和系统。其中所述方法包括:提取文档的文本特征信息;基于与文档相关的信息建立社会关系网络;基于所述社会关系网络进行图聚类,以获得结构子类;提取所述结构子类的结构特征信息;以及基于所述文本特征信息和所述结构特征信息对文档进行聚类。采用本发明专利技术的用于文档聚类方法和系统有利于提高文档聚类的准确度。

【技术实现步骤摘要】

本专利技术总体上涉及信息处理
,特别地,涉及一种用于文档聚类的方法及系统
技术介绍
随着互联网应用的日益普及,海量的文本信息为文本分析提供了丰富的数据源。通过对文本数据的分析,可以分析出舆论热点等信息。对于文本分析技术而言,文本聚类是众多应用的关键步骤,有效的文本聚类方法,能够提高舆论热点识别的精度。 传统的文本聚类技术,通常是提取文档的文本特征信息,例如关键词词频,而后基于文本特征信息,计算两篇文档之间的相似度,然后基于相似度进行聚类。然而,这种聚类算法存在一定的局限性,其只是考虑文档的内容的相似性,对于如果内容是似乎不关联的文档之间的关联关系则往往无法进行准确分析。因此,需要一种改进的用于文档聚类的方法及系统。
技术实现思路
本专利技术一方面提供一种用于文档聚类的方法,包括提取文档的文本特征信息;基于与文档相关的信息建立社会关系网络;基于所述社会关系网络进行图聚类,以获得结构子类;提取所述结构子类的结构特征信息;以及基于所述文本特征信息和所述结构特征信息对文档进行聚类。本专利技术另一方面提供一种用于文档聚类的系统,包括文本特征信息提取装置,被配置为提取文档的文本特征信息;社会关系网络建立装置,被配置为基于与文档相关的信息建立社会关系网络;图聚类装置,被配置为基于所述社会关系网络进行图聚类,以获得结构子类;结构特征信息提取装置,被配置为提取所述结构子类的结构特征信息;以及聚类装置,被配置为基于所述文本特征信息和所述结构特征信息对文档进行聚类。由于本专利技术的具体实施例不仅考虑了文档之间的文本特征相似度,还基于文档作者之间的社会关系网络状况,进一步考虑了作者之间的结构特征信息,因此能够提高文档聚类的准确程度。附图说明为了对本专利技术实施例的特征和优点进行详细说明,将参照以下附图。如果可能的话,在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中图I示出了本专利技术的用于文档聚类的第一具体实施方式;图2、3示出了本专利技术用于文档聚类的第二具体实施方式;图4示出了以文档作为节点建立的社会关系网络的示意图;图5示出了本专利技术用于文档聚类的系统结构示意图;图6示意性示出了可以实现根据本专利技术的实施例的计算设备的结构方框图。具体实施例方式现在将参考本专利技术的示例性实施例进行详细的描述,在附图中图解说明了所述实施例的示例,其中相同的参考数字始终指示相同的元件。应当理解,本专利技术并不限于所公开的示例实施例。还应当理解,并非所述方法和设备的每个特征对于实施任一权利要求所要求保护的本专利技术都是必要的。此外,在整个公开中,当显示或描述处理或方法时,方法的步骤可以以任何顺序或者同时执行,除非从上下文中能清楚一个步骤依赖于先执行的另一步骤。此外,步骤之间可以有显著的时间间隔。在研究如何使文档聚类方法能够更准确地分析文档之间的关联关系,本申请的专利技术人发现,随着微博等互联网应用的飞速发展,文档作者之间的社会关系结构信息也成为可以被利用来做文本聚类的重要信息来源,通过文档作者之间的交互关系网络,可以识别出两篇文档作者的相似度,从而有利于提高文档聚类的精度。以互联网的文档为了,文档作者之间的交互关系可以包括对文档的回帖,留言,或者作为文档的共同作者等。·图I示出了本专利技术用于文档聚类的第一具体实施方式。在步骤101中,提取文档的文本特征信息。本领域技术人员基于本申请可以采用各种适用的提取文档的文本特征信息的方法。比如,可以米用 TFIDF 算法(Term-Frequency Inverse Document FrequencyAlgorithm)对文档进行特征提取(具体参见参考文献IJ. Allan, J. Carbonell,G.Doddington, J. Yamron and Y. Yang. “Topic detection and tracking pilot study Final report,,· In Proc. of DARPA Broadcast News Transcription and UnderstandingWorkshop, 1998)。首先,对于每篇文档,进行分词。例如,文档内容为“......数据分析对于互联网公司是核心技术。”,则会被分词为“数据分析/对于/互联网/公司/是/核心/技术”。对于分词的结果,过滤连接词,结束词,则得到“数据分析/互联网/公司/核心技术”,把剩余词汇,作为词频表的输入。对于所有要处理的文档,建立词频表,统计每个词汇出现的次数,选择频率适中的词汇建立索引词汇库。例如,“数据分析/互联网/核心技术”被选入索引词汇表。统计每篇文档中,索引词汇库表中的词汇,在该文档中出现的频率,得到频率向量,而后按照TFIDF算法的定义,计算每个词汇的特征向量,以该特征向量作为文本特征信息。例如,上述词汇“数据分析/互联网/核心技术”的特征向量被计算为{log2/3,0,0},可以得到该文档的文本特征信息Ti为{1呢2/3,0,0},其中1为整数,用于后续文档之间的相似性计算。由于提取文档的文本特征信息有较多的现有成熟技术,在此不再赘述。。在步骤103中,基于与文档相关的信息建立社会关系网络。文档相关的信息可以包括文档的作者、文档作者之间的回复,文档的共同作者或者例如作者相互在博客上的留言关系,作者之间的转贴关系等等。构建文档的社会关系网络的目的在于能够去分析文档作者的社会关联,从而能够不仅仅基于文档的内容本身来发现文档之间的关联性,有利更准确的文档聚类。在步骤105中,基于社会关系网络进行聚类,以获得结构子类。结构子类是指基于社会关系网络通过图聚类算法,得到的属于同一类节点的集合。本领域技术人员基于本申请可以利用通用的图聚类算法对社会关系网络进行聚类。例如可以采用参考文献2Y. Zhang, J. Wang, Y. Wang, and L. Zhou, “Parallel community detection on largenetworks with propinquity dynamics, ” in Proceedings of the 15th ACM SIGKDDinternational conference on Knowledge discovery and data mining. ACM,2009,pp. 997-1006 和参考文献3M. E. J. Newman and M. Girvan, “Finding and evaluatingcommunity structure in networks,,,Physical review E, vol. 69, no. 2, pp. 26113, 2004坐寸ο在步骤107中,提取所述结构子类的结构特征信息。其中所述结构特征信息包括结构子类成员个数、结构子类成员归属和结构子类紧密程度中至少之一。其中结构子类成员个数指的是结构子类中成员的个数。结构子类成员归属指成员是否属于这个结构子类,通常我们是需要判断两个成员是否属于同一个结构子类。结构子类紧密程度指的是结构子类中成员与本子类成员联系紧密程度。这些结构特征信息表征了社会关系网络中各个节点之间的社会关联程度,可以用于帮助文档的聚类。当然,本领域技术人员基于本申请也可本文档来自技高网...

【技术保护点】
一种用于文档聚类的方法,包括:提取文档的文本特征信息;基于与文档相关的信息建立社会关系网络;基于所述社会关系网络进行图聚类,以获得结构子类;提取所述结构子类的结构特征信息;以及基于所述文本特征信息和所述结构特征信息对文档进行聚类。

【技术特征摘要】

【专利技术属性】
技术研发人员:史巨伟薛伟杨博王文杰
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1