用于文档聚类的方法及系统技术方案

技术编号：8105707 阅读：452 留言：0更新日期：2012-12-21 04:26

本发明专利技术提供一种用于文档聚类的方法和系统。其中所述方法包括：提取文档的文本特征信息；基于与文档相关的信息建立社会关系网络；基于所述社会关系网络进行图聚类，以获得结构子类；提取所述结构子类的结构特征信息；以及基于所述文本特征信息和所述结构特征信息对文档进行聚类。采用本发明专利技术的用于文档聚类方法和系统有利于提高文档聚类的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术总体上涉及信息处理
，特别地，涉及一种用于文档聚类的方法及系统。
技术介绍
随着互联网应用的日益普及，海量的文本信息为文本分析提供了丰富的数据源。通过对文本数据的分析，可以分析出舆论热点等信息。对于文本分析技术而言，文本聚类是众多应用的关键步骤，有效的文本聚类方法，能够提高舆论热点识别的精度。传统的文本聚类技术，通常是提取文档的文本特征信息，例如关键词词频，而后基于文本特征信息，计算两篇文档之间的相似度，然后基于相似度进行聚类。然而，这种聚类算法存在一定的局限性，其只是考虑文档的内容的相似性，对于如果内容是似乎不关联的文档之间的关联关系则往往无法进行准确分析。因此，需要一种改进的用于文档聚类的方法及系统。
技术实现思路
本专利技术一方面提供一种用于文档聚类的方法，包括提取文档的文本特征信息；基于与文档相关的信息建立社会关系网络；基于所述社会关系网络进行图聚类，以获得结构子类；提取所述结构子类的结构特征信息；以及基于所述文本特征信息和所述结构特征信息对文档进行聚类。本专利技术另一方面提供一种用于文档聚类的系统，包括文本特征信息提取装置，被配置为提取文...

【技术保护点】
一种用于文档聚类的方法，包括：提取文档的文本特征信息；基于与文档相关的信息建立社会关系网络；基于所述社会关系网络进行图聚类，以获得结构子类；提取所述结构子类的结构特征信息；以及基于所述文本特征信息和所述结构特征信息对文档进行聚类。

【技术特征摘要】

【专利技术属性】
技术研发人员：史巨伟，薛伟，杨博，王文杰，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人