当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于流聚类的中文网页文本分类方法技术

技术编号:3747931 阅读:393 留言:1更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于流聚类的中文网页文本分类方法,属于互联网数据挖掘技术领域,该方法包括:实时采集网页;去除未处理过的该网页的格式中的标签,解析出网页中各文本的特征信息;将文本内容分割、做ngram分词,形成多个词串;计算每个词串的权值;提取高权值词串,将该高权值词串及其相应权值作为特征向量;将特征向量以及特征信息与已有类进行相似度的计算;并计算得到的总的相似度,将文本归入已有的一类中或建立一个新类;根据已存在的类中的特征项数量,判断是否将该类分裂成两个子类;对已处理的文本记录和已有的类的信息进行储存。本方法针对网页文本的特点充分挖掘了它的有效信息,使该方法具有增量式、快速、有效及更实用的特点。

【技术实现步骤摘要】

本专利技术属于互联网数据挖掘
,特别是涉及一种对于海量网页文本的聚类方法。
技术介绍
随着计算机网络技术的快速发展和推广,网络数据急剧膨胀,这些数据具有更新 速度快、数据量庞大、数据组织形式不规范等特点,但也蕴藏着极多的有价值信息。如何从 这些海量数据中提取出有效信息成为人们关注的热点。 为了能对海量数据进行有效分类,目前人们主要基于流聚类方法对海量数据进行 分类,这种方法的基本思路是只对数据进行一次扫描,扫描一条处理一条,按照数据的特 征信息将该数据归入类中,类的表示方法为类中数据的特征信息的加权,这样便于进行类 的更新操作。 将这种通用的流聚类方法应用到网页文本上存在的主要问题是网页文本的特征 信息除了正文之外还包含标题、作者、发表时间等,而且网页文本经过预处理之后的数据单 元往往是高维的而且维度不定,分析起来难度更大。
技术实现思路
本专利技术的目的在于克服已有技术的不足之处,提出一种中文网页文本的聚类方 法,将流聚类方法应用到网页文本聚类上,本方法针对网页文本的特点充分挖掘了它的有 效信息,使该方法具有增量式、快速、有效及更实用的特点。 本方法首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向 量、相关链接向量以及发表时间组成; 文本类结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量的 加权线性和以及类的权值构成;初始化时文本类数量为0 ; 该方法包括以下步骤 1)通过网页爬虫从Internet的新闻站点上实时采集网页; 2)对采集到的网页做预处理,首先判断该网页是否已经处理过,如果是,则丢弃,如果未处理过,则去除该网页格式(html)中的标签,解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接(个别文本中可能会缺少某些信息)作为特征信息; 3)根据文本的中文编码标准对该文本进行解码,将文本内容分割成一个个单独的字,然后对标题、标签和正文做ngram分词,形成多个词串; 4)根据TF*IDF公式计算该文本标题、标签和正文中每个词串的权值; 5)根据步骤4)中计算得到的权值提取该文本标题、标签和正文中的高权值词串,并对所述高权值词串进行归一化处理,使该词串的权值和为l,将该高权值词串及其相应权值作为该文本的标题、标签和正文特征向量; 6)将该文本的标题、标签和正文特征向量以及作者和相关链接的特征信息与已有3类进行相似度的计算; 7)根据步骤6)中计算得到的总的相似度,将文本归入已有的一类中或以该文本的特征信息为基础建立一个新类; 8)判断已存在的类中的正文特征向量的特征项数量,若该数量大于设定值,则将该类分裂成两个子类,以防止类的无限膨胀; 9)对已处理的文本记录和已有的类的信息进行储存,以在下次启动聚类过程时利用这些信息。 本专利技术的中文网页新词自动获取方法与现有的技术相比,具有以下优点 1、采用网页爬虫从大型门户网站上获取WEB数据来进行分析; 互联网是当前发布和传播信息的主要途径,而大型门户网站的数据具有较强的实时性、可靠性和较高的覆盖程度,能够较好的反应当前舆论动向,数据的分析结果也就具有更高的实用价值。 2、采用ngram方法进行中文分词; 相比基于词典查找的中文分词方法,ngram分词方法简便易行,处理效率高,词的覆盖率宽,不会遗漏最新出现的网络词汇。 3、充分利用网页中的有效信息; 网页文本中除了正文部分以外,往往还含有其他的有用信息,这些信息对于进行文本分析都是有用的,本方法中充分考虑了这一点,针对不同的信息引入不同的衡量公式,以达到更好的分析结果。 4、引入了类的合并与分裂,防止类的畸形发展; 随着文本的不断输入,传统的聚类方法往往会出现类的数量急剧增多、文本的集中化分布、类的容量过大等情况,本方法对类的生成、分裂和合并等过程进行了程式化描述,以防止类的畸形发展。 5、本方法具有较高的运行速度; 对于海量数据的处理往往会遇到算法复杂度过高,运行速度较慢的情况,本方法还可采用多线程并行处理和分片处理等机制来改进运行速度,获得了理想的效果。具体实施例方式本专利技术提出的及实施例详细描述如下 首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成; 文本类为在某一时刻t到来的一组发表时间为1\, T2, . . . Tn(以天为单位)的相应文本Pi, P2, . . . P3的集合,该类结构由多个特征向量及类的权值和更新时间组成,表示为(FCtttk, FC^, FC^, FCj^, FC^, " , t),其中FC^, FC^, FC^, FC^^, FClink分别为该类中的所有文本的标题向量、标签向量、正文向量、作者向量、相关博文链接向量的加权线性和;《 =力/(卜^:)表示该类的权值,f(t) =2—"为衰变函数(A推荐取0.1,即以10天为半衰期),t为该类中距离当前时间最近的文本的发表日期, 本方法具体包括以下步骤 1)通过网页爬虫从Internet的新闻站点上实时采集网页; 本实施例的网页爬虫可以使用开源的爬虫,或者自己开发的爬虫,例如通过借助RSS从新浪或搜狐博客站点持续更新博文网页; 2)对采集到的网页做预处理,首先判断该网页是否已经处理过,如果是,则丢弃,如果未处理过,则去除网页格式(html)中的标签,解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接(个别文本中可能会缺少某些项)作为特征信息; 本实施例可利用开源的网页解析软件、开发包,或者通过简单的正则匹配的方式对采集到的网页进行解析,提取文章的作者、标题、标签、正文、发表时间、相关链接作为特征信息; 3)根据文本的中文编码标准对该文本进行解码,将文本内容分割成一个个单独的字,然后然后对标题、标签和正文做ngram分词,形成多个词串;本实施例的具体步骤如下 31)中文网页通常采用定长形式的GBK编码或者不定长形式的UTF8编码,首先判断其编码方案,然后根据解码规范对其进行解码,将文本内容分割成一个个单独的字; 32)利用ngram分词方法对分割后的文本进行分词,顺序将临近的n个汉字聚聚集在一起形成一个词串(比如一句话"我爱中国",n取为2时,可以得到如下三个词串"我爱"、"爱中"、"中国",n可以取u和3,或根据需要取值); 4)根据TF*IDF公式计算该文本标题、标签和正文中每个词串的权值; 41)TFWDF是文本处理中计算词串权值的经典公式,词串i的权值wti计算公式为M ^乂xlog(—+ () () 1),其中tf是该词串在该文本中出现的频率,N为处理过的文本总数,由统计可以得到,&为处理过的文本中包含该词串的文本数;N、rii、 i均为正整数; 42)维护一份词串索引表,通过多线程和哈希的方式将词串索引表分成256个子表,该词串索引子表以词串为索引,记录处理过的文本中包含该词串的文本数以及这些文本的链接地址; 由于ngram分词后的词串量往往在千万数量级,数据库在维护这个量级的索引表时操作速度很慢,为了解决这个问题,本实施例通过多线程和哈希的方式将词串索引表分成256个子表,每个子表对应一个线程,对于一个新的词串,根据词串的哈希值将其分给某一个线程,由该线程将词串插入或更新到子索引表中本文档来自技高网...

【技术保护点】
一种基于流聚类的中文网页文本分类方法,其特征在于,该方法首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成;文本类结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量的加权线性和以及类的权值构成;初始化时文本类数量为0;该方法包括以下步骤:1)通过网页爬虫从Internet的新闻站点上实时采集网页;2)对采集到的网页做预处理,首先判断该网页是否已经处理过,如果是,则丢弃,如果未处理过,则去除该网页格式(html)中的标签,解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接作为特征信息;3)根据文本的中文编码标准对该文本进行解码,将文本内容分割成一个个单独的字,然后对标题、标签和正文做ngram分词,形成多个词串;4)根据TF*IDF公式计算该文本标题、标签和正文中每个词串的权值;5)根据步骤4)中计算得到的权值提取该文本标题、标签和正文中的高权值词串,并对所述高权值词串进行归一化处理,使该词串的权值和为1,将该高权值词串及其相应权值作为该文本的标题、标签和正文特征向量;6)将该文本的标题、标签和正文特征向量以及作者和相关链接的特征信息与已有类进行相似度的计算;7)根据步骤6)中计算得到的总的相似度,将文本归入已有的一类中或以该文本的特征信息为基础建立一个新类;8)判断已存在的类中的正文特征向量的特征项数量,若该数量大于设定值,则将该类分裂成两个子类,以防止类的无限膨胀;9)对已处理的文本记录和已有的类的信息进行储存,以在下次启动聚类过程时利用这些信息。...

【技术特征摘要】

【专利技术属性】
技术研发人员:卞小丁袁睿翕孙立远
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有1条评论
  • 来自[美国加利福尼亚州圣克拉拉县山景市谷歌公司] 2014年12月10日 12:26
    1.根据一定的名分。《荀子·非相》:“小辩不如见端,见端不如见本分。”杨倞注:“分,上下贵贱之分。”王先谦集解引王引之曰:“‘本分’上本无‘见’字。此涉上两‘见端’而衍。本分者,本其一定之分也。”2.本人的身份地位。3.安分守己。4.本身分内的。宋王谠《唐语林·政事上》:“刘栖楚为京兆尹,常语县官曰:‘诸公各自了本分公事。’”5.指本身分内的事。元王实甫《西厢记》第五本第三折:“他口叫道:‘我自有妻,我是崔相国家女婿。’那尚书有权势气象,那里听,只管拖将入去了。这个却纔便是他本分,出於无奈。”
    0
1