一种基于公共子串的中文Web文档在线聚类方法技术

技术编号:4249493 阅读:339 留言:0更新日期:2012-04-11 18:40
随着互联网上的信息激增,搜索引擎在搜索和定位信息的应用中变得日益重要。Web文档聚类可自动将搜索引擎的返回结果按不同主题进行分类,帮助用户缩小查询范围并快速定位所需信息。Web文档在线聚类的特点是:一方面要满足Web文档非数值型和非结构化的特点,另一方面聚类时间要满足用户在线检索的要求。根据这两个特点,提出一种基于公共子串的中文Web文档在线聚类方法,该方法步骤如下:(1)首先对搜索引擎返回的前N项查询结果进行预处理,实现对搜索引擎返回结果中非中文字符的删除及替换操作;(2)利用GSA实现Web文档中公共子串的提取;(3)利用提取的公共子串,参考TF*IDF提出权重计算方公式,建立文档特征向量模型;(4)基于该模型计算Web文档的两两相似度,得到相似度矩阵;(5)基于该矩阵,采用改进的层次聚类算法实现Web文档聚类。(6)聚类描述和标签的提取。该方法在性能、聚类标签生成和聚类时间效果方面具有较明显优势。

【技术实现步骤摘要】

本专利技术属于信息处理
,是一种数据挖掘方法,具体涉及一种Web文档在 线聚类方法。
技术介绍
聚类过程实质上是一个映射过程。若给定对象集0 = {0l, o2, . . . , on},类集为={Cl, c2, . . . , cm},则聚类是如下映射 且满足(1) c,. ;0(/ = l,2,...,/) (2)|Jc,=0 随着互联网的日益推广和普及,网络信息的迅速增加,传统的搜索引擎往往会返 回大量的搜索结果而使用户很难找到自己真正需要的信息。Web文档聚类能够较好地解决 这一问题,它将搜索引擎的返回结果按内容分类。这样,用户就可以縮小挑选范围从而快速 找到感兴趣的信息。 Web文档聚类是一种无指导的文档分类,它将一个文档集分成若干个簇(子集), 同一簇内文档内容的相似性尽可能的大,而不同簇之间文档内容的相似性尽可能的小。相 比一般的聚类,Web文档在线聚类有两个特点一是聚类对象是Web文档,具有非数值型和 非结构化的特点;二是聚类时间要满足用户在线检索的要求,因而算法应具有实时性和交 互性的特点。 Web文档聚类的研究主要有三种方法基于链接的聚类、基于文本相似度的聚类 及基于用户反馈的聚类。目前,比较常见的搜索引擎结果聚类方法主要是基于文档相似度 的聚类算法。基于文档相似度的聚类思想是将文档抽象表示为向量,并采用向量夹角余弦 来表示文档与文档之间的相似度,然后按照一定的聚类算法(如K-means、STC)对文档进行 聚类。 以上提到的方法适用于英文信息检索系统,而中文的词语之间没有间隔,必须依 赖于分词系统,所以以上方法对于中文信息检索的效果并不好。本专利技术提出一种在线式的、 无需中文分词的中文Web文档聚类算法。
技术实现思路
本专利技术要解决的技术问题 1、目前一般的Web文档聚类方法适用于英文信息检索系统,而中文的词语之间没 有间隔,必须依赖于分词系统,而词库的质量对聚类效果会有至关重要的影响。本专利技术采用 无分词技术,可以避免词库的影响,同时提高聚类性能; 2、 Web文档在线聚类的执行时间要满足用户在线检索的要求,因而要求算法应具有较强的实时性和交互性。 本专利技术采用的技术方案 系统处理流程分以下几个步骤l)Web文档预处理,实现对搜索引擎返回结果中非中文字符的删除以及替换处理操作;2)利用GSA实现Web文档中公共字串的提取,然后将公共字串作为文档的特征;3)计算待聚类文档两两之间的相似度,形成文档相似度矩阵;4)利用相似度矩阵,并使用聚类算法对文档进行聚类;5)聚类描述和标签的提取,即对每个类别赋予一个能够描述该类的类标签,这个标签既能概括本类的内容,又能将本类与其他类区别开来。 本专利技术取得的有益效果 在线聚类方法在性能、聚类标签生成和聚类时间效果方面具有较明显优势 1、与和传统的文本聚类系统相比,本文所提出的中文Web文档在线聚类方法不需 要分词,而是采用GSA算法来提取Web文档之间公共子串的方法确定文档的特征,进而作为 聚类方法中的特征向量进行聚类计算。解决了 Web文本作为聚类对象非数值型和非结构化 的问题。 2、本专利技术求解字符串之间公共子串采用的是后缀树(Suffix Tree)算法的一个变 种——GSA算法,其时间复杂度为O(n),且空间复杂度是S(n)。其在空间复杂性上要优于 后缀树算法。 3、传统的层次聚类方法(无论是凝聚层次聚类还是分裂层次聚类),复杂度都很 高,而可扩展性较差,因而不适合大量文档的聚类。为此,本专利技术对传统的凝聚层次聚类进 行了优化,取得了较好的聚类效果。 4、本专利技术使用权重最大的公共子串作为聚类的标签,不仅能够保留语义成分,而 且使得聚类标签的可读性强。 下面,将通过实验验证本专利技术取得的效果 聚类算法的主要指标包括CH值、聚类标签有效性及聚类效果。 CH函数的定义如下 C H= -^;^-^-^/rce5 —S 乂|w 7 _ w乂 = ice『=Z Z 卄x,. — w乂乂 = 1 Z = 1 其中,nj是第j个聚类中的文本数量;Uj是第j个聚类的质心;u是所有参与聚类 文本的质心;Xi是相应某个聚类里的第i个文本;k是聚类的总数目;n是文本的总数目。CH 函数是聚类结果中类内距离与类间距离的综合体现,CH值越大,代表聚类效果越好。 实验中使用五个关键字来进行检索,下表是本文提出的模型与中文分词+t,idf 模型的CH值比较 <table>table see original document page 6</column></row><table> 通过实验发现基于公共子串的模型获得的CH值比分词+t,idf模型要大,其中 姚明和数据挖掘的CH值分别提高了 5. 8、5. 4,因此,新的方法在聚类效果上要好于传 统方法。 聚类标签的有效性即可读性对于用户而言非常重要,只有具有实际含义的短语才 能作为聚类的标签。标签有效性的计算公式是P = M/N,其中,M代表可读性好的标签数目,N 代表所有标签的数目。实验结果见附图l,由附图1可知,新方法的短语有效性在0.8-0.95 之间,而传统的方法大部分在0.8以下。因此,新方法得到的聚类标签可读性要优于传统模 型。 最后,专利技术对关键词苹果在百度查询的前100条结果作为聚类的Web文档,最 终的效果见附图2。从附图2可看出,本专利技术提出的方法能够获得较好的聚类效果。 通过实验结果分析和比较,本专利技术提出的基于公共子串的中文Web文档在线聚类 方法在聚类效果、聚类性能以及在聚类标签可读性等方面相比基于分词的中文聚类算法具 有较明显的优势。附图说明 图1为标签的有效性比较; 图2为输入关键字苹果所得的聚类效果; 图3为三个查询词的测试结果(苹果、姚明、数据挖掘); 图4为基于公共子串的中文Web文档在线聚类方法的流程图。具体实施例方式1. Web文档预处理 在中文搜索引擎(如百度等)的返回结果中,常常含有一些非中文字符,如英文字 符、空格、标点符号或者乱码等。由于本专利技术研究的重点是中文Web文档聚类,所以在聚类 之前,需要对搜索结果中的非中文内容进行替换处理。 预处理阶段主要将这些非中文字符替换成系统预先定义的分隔符。需要替换的非 中文字符主要包括空格、数字、英文大小写字母、中英文标点符号(包括全角和半角)及中 文停顿字(例如啊、的、了等)。预处理后将得到只包含中文字符的搜索引擎结果 项,将其作为公共子串提取的输入。 2.基于GSA的公共子串提取 參公共子串(Common Substring, CS):字符串u如果既是字符串S的子串又是字符串T的子串,则字符串u是字符串S和T的一个公共子串。若用Sub(S, u) 表示字符串u是字符串S的子串,则字符串S、T的公共子串集Com(S, T)可定义为 Com(& = I Vw, 5W6(S, w) a 5W6(r, w)}. 參最长公共子串(Longest Common Substring, LCS):字符串S和T的最长公共子 串是指字符串S和T的所有公共子串中长度最大的子串。若字符串u满足u G Com(S, T) 且WeGK5;7),则称u为字符串S, T的最长本文档来自技高网
...

【技术保护点】
一种基于公共子串的中文Web文档在线聚类方法,其特征在于步骤如下:    (1)利用广义后缀数组(Generalized  Suffix  Array,GSA)算法提取Web文档中的公共子串;    (2)利用提取的公共子串,建立文档特征向量模型,并基于该模型计算Web文档的两两相似度,得到相似度矩阵;    (3)基于该相似度矩阵,采用改进的层次聚类算法实现Web文档聚类;    (4)在聚类过程中,将同一个聚类集合中权重最大的公共子串作为该聚类的标签。

【技术特征摘要】
一种基于公共子串的中文Web文档在线聚类方法,其特征在于步骤如下(1)利用广义后缀数组(Generalized Suffix Array,GSA)算法提取Web文档中的公共子串;(2)利用提取的公共子串,建立文档特征向量模型,并基于该模型计算Web文档的两两相似度,得到相似度矩阵;(3)基于该相似度矩阵,采用改进的层次聚类算法实现Web文档聚类;(4)在聚类过程中,将同一个聚类集合中权重最大的公共子串作为该聚类的标签。2. 根据权利要求1所述的一种基于公共子串的中文Web文档在线聚类方法,其特征在 于所述的步骤(1)中利用GSA算法的提取过程为假设共有N篇文档,每篇文档可看做一 个字符串,则共有N个字符串S2, . . . S,,其中N大于l,将这些字符串用N-l个特殊字符 拼接起来后得到字符串SE = SiaiS2a2. . . SN—1%—^w,其中ai即为插入的特殊字符,i的取值 范围为1《i《(N-l);且对所有的ai, Sj有,,其中i, j的取值范围为1《i《N-l, 1《j《N ;构造SE的后缀数组,然后两两比较相邻子串的最长公共前缀,这两个相邻子串 的所有长度大于等于1的最长公共前缀,就是所求的两个字符串的公共子串,以此类推即 可得到S2, . . . SN的全部公共子串。3. 根据权利要求l所述的一种基于公共子串的中文Web文档在线聚类方法,其特征 在于所述的步骤(2)中的建立的文档特征向量模型为首先假设待聚类的文本为{Dl, D2,, DN};经过过滤处理的公共子串序列为S2, . . . Sn—p Sn ;函数len(Sk)表示字符串 Sk的长度,其中k二 1,2,…,n;函数tf(Sk, Dj)表示公共子串Sk在文本Dj中出现的频率;函数idf(Sk)表示公共子串Sk的逆文档频率;常数N表示搜索引擎返回的结果数目,也 就是要聚类的文本数目;函数df(Sk)表示包含公共子串Sk的文本数目;建立文档Dj的特征向量模型Dj = (w(Sp Dj), w(S2, Dj), ... , w(Sn, D》} , (j = 1,2, . . . N),即公共子串及其对应权重所组成的特征向量;其中,w(Sk,Dj...

【专利技术属性】
技术研发人员:张辉王德庆王晗杨高
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1