一种基于流聚类的中文网页文本分类方法技术

技术编号：3747931 阅读：393 留言：1更新日期：2012-04-11 18:40

本发明专利技术涉及一种基于流聚类的中文网页文本分类方法，属于互联网数据挖掘技术领域，该方法包括：实时采集网页；去除未处理过的该网页的格式中的标签，解析出网页中各文本的特征信息；将文本内容分割、做ｎｇｒａｍ分词，形成多个词串；计算每个词串的权值；提取高权值词串，将该高权值词串及其相应权值作为特征向量；将特征向量以及特征信息与已有类进行相似度的计算；并计算得到的总的相似度，将文本归入已有的一类中或建立一个新类；根据已存在的类中的特征项数量，判断是否将该类分裂成两个子类；对已处理的文本记录和已有的类的信息进行储存。本方法针对网页文本的特点充分挖掘了它的有效信息，使该方法具有增量式、快速、有效及更实用的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于互联网数据挖掘
，特别是涉及一种对于海量网页文本的聚类方法。
技术介绍
随着计算机网络技术的快速发展和推广，网络数据急剧膨胀，这些数据具有更新速度快、数据量庞大、数据组织形式不规范等特点，但也蕴藏着极多的有价值信息。如何从这些海量数据中提取出有效信息成为人们关注的热点。为了能对海量数据进行有效分类，目前人们主要基于流聚类方法对海量数据进行分类，这种方法的基本思路是只对数据进行一次扫描，扫描一条处理一条，按照数据的特征信息将该数据归入类中，类的表示方法为类中数据的特征信息的加权，这样便于进行类的更新操作。将这种通用的流聚类方法应用到网页文本上存在的主要问题是网页文本的特征信息除了正文之外还包含标题、作者、发表时间等，而且网页文本经过预处理之后的数据单元往往是高维的而且维度不定，分析起来难度更大。
技术实现思路
本专利技术的目的在于克服已有技术的不足之处，提出一种中文网页文本的聚类方法，将流聚类方法应用到网页文本聚类上，本方法针对网页文本的特点充分挖掘了它的有效信息，使该方法具有增量式、快速、有效及更实用的特点。本方法首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成；文本类结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量的加权线性和以及类的权值构成；初始化时文本类数量为0 ; 该方法包括以下步骤 1)通过网页爬虫从Internet的新闻站点上实时采集网页； 2)对采集到的网页做预处理，首先判断该网页是否已经处理过，如果是，则丢弃，如果未处理过，...

【技术保护点】
一种基于流聚类的中文网页文本分类方法，其特征在于，该方法首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成；文本类结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量的加权线性和以及类的权值构成；初始化时文本类数量为０；该方法包括以下步骤：１）通过网页爬虫从Ｉｎｔｅｒｎｅｔ的新闻站点上实时采集网页；２）对采集到的网页做预处理，首先判断该网页是否已经处理过，如果是，则丢弃，如果未处理过，则去除该网页格式（ｈｔｍｌ）中的标签，解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接作为特征信息；３）根据文本的中文编码标准对该文本进行解码，将文本内容分割成一个个单独的字，然后对标题、标签和正文做ｎｇｒａｍ分词，形成多个词串；４）根据ＴＦ＊ＩＤＦ公式计算该文本标题、标签和正文中每个词串的权值；５）根据步骤４）中计算得到的权值提取该文本标题、标签和正文中的高权值词串，并对所述高权值词串进行归一化处理，使该词串的权值和为１，将该高权值词串及其相应权值作为该文本的标题、标签和正文特征向量；６）将该文本的标题、标签和正文特征向量以及作者和...

【技术特征摘要】

【专利技术属性】
技术研发人员：卞小丁，袁睿翕，孙立远，
申请(专利权)人：清华大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人