基于模糊数据挖掘的中文网页自动分类方法技术

技术编号:3936947 阅读:318 留言:0更新日期:2012-04-11 18:40
本发明专利技术公布了一种基于模糊数据挖掘的中文网页自动分类方法,该方法由分类词语描述库构建部分、新网页预处理部分、模糊分类匹配器部分以及分类结果模糊评判部分组成。通过应用模糊综合评判的方法,将构建分类词语描述库时所生产的训练集特征词向量模糊矩阵和新网页预处理部分所生产的网页特征词模糊向量进行模糊分类运算,再通过分类结果模糊评判,从而得到该中文网页的模糊分类。该方法能有效提高分类效率,解决分类模糊性问题,具有良好的可扩展性,操作简单方便,易于推广。

【技术实现步骤摘要】

本专利技术是针对模糊数据挖掘和的研究,主要研究如何通过技术手段对中文网页的内容进行过滤提取、分词和特征选择以及文本表示,并研究了如何利用模糊数据挖掘的知识,对网页进行模糊分类的方法,涉及到网页自动获取、中文网页预处理、中文分词及关键词频度分析、中文网页模糊分类等

技术介绍
随着Internet技术和Web技术的高速发展,Internet上网页的数量正在不断的增加。网络的日益普及以及网民数量的爆炸性增长,使得网络用户行为呈现出复杂性和多样性,如何对网络用户行为进行恰当的分析、管理和告警是急需解决的问题。面对互联网海量信息,如何在这些信息中过滤掉用户反感的信息,并将用户感兴趣的信息提取出来,实现信息的主动推送,同时保证人们在信息选择方面的个人权利,逐渐成为大家所关注的研究点。同时,中文网页种类繁多,通常包含很多的"噪音"信息,一个网页甚至会包含多个主题。获取网页中的有效文本内容,并对网页的海量数据进行自动分类,是组织和管理网络资源的关键。传统的人工分类的方法存在很多诸如效率低下、费用高的弊端。网页自动分类可以在较大程度上解决目前网上信息纷繁杂乱的现象,并方便用户准确地定位所需的信息。因此,网页自动分类便成了快速且有效地组织网络上海量信息的重要手段,具有较大的实用价值。而在现实生活中,很多实际分类问题往往不好精确地确定某个对象属于某个类,只能给出某个对象属于某个类的可能性有多大,这时,文本类别的识别就带有一定的模糊性,对这些具有模糊性的模式借助于模糊理论来刻画显得很自然,这就引出了模糊分类的概念。 针对中文网页进行网页模糊自动分类有一定的难度,主要体现在 1)中文网页使用中文进行编辑,不像英文单词之间存在空格,需要对中文进行分词处理,分词的效果直接影响到关键词的分析和网页分类的结果。 2)中文网页包含大量的"噪音",很多网页的编写没有规范,包含很多的广告、注释以及其他信息,需要对网页进行预处理,进化网页内容,提取用户感兴趣的信息。 3)现今大部分对中文网页分类的研究集中在通过对中文网页进行特征选取和向量表示,利用KNN(k-Nearest Neighbor algorithm)分类算法,对网页进行分类,该方法实现网页分类时间代价和复杂性高。应用模糊数据挖掘的理论,对中文网页进行模糊分类的研究并不多见。
技术实现思路
技术问题 本专利技术的目的是建立一种,并设计其分类模型和算法,通过对中文网页进行预处理,提取出网页中的中文信息,建立分类词语描述库,得到训练集特征词向量模糊矩阵;对待分类的新网页进行网页预处理及特征词模糊化,利用模糊分类匹配器,依照模糊评判原则,快速分析中文网页的模糊分类问题,便于分析网页的核心内容,快速掌握网页的关键信息及其所属类别,从而有利于高效的组织网络上海量的信息。 技术方案 本专利技术,其特征在于该方法的步骤为 1)根据用户所输入待分类网页P的网址URL,进行待分类网页P的预处理,预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释等内容过滤去噪以及提取出网页中的中文文本内容; 2)利用分词器对所提取出的中文文本内容进行分词操作,得到中文网页的分词后文本; 3)通过关键词频度分析器,对能体现该待分类网页P的主题和关键内容的的关键词进行提取,并按照关键词权重对关键词进行排序,提取出待分类网页P的特征词集合T ; 4)初始化数据表D :该数据表D是用于存储构建分类词语描述库时所生产的总特征词集合Z的总特征词向量模糊矩阵R;总特征词是通过文本预处理、训练集总特征词选择以及总特征词集合模糊化的模块得到的; 5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频度分析; 6)判断总特征词集合Z中的特征词是否存在于待分类网页P中;如果待分类网页P存在该特征词t,则转入步骤7);如果不存在该特征词t,则转到步骤5); 7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度; 8)构造隶属函数,将待分类网页P进行模糊化处理,得到待分类网页P的特征词向量模糊矩阵B ; 9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊分类匹配,得到待分类网页P的分类结果模糊向量C = {Cl, c2, . . . , cj ; 10)对待分类网页P的分类结果模糊向量C = {Cl, c2, . . . , cm}进行"归一化"处理,得到归一化后的向量记为C' ,C' = ((VS,C2/S,….,Cm/S),其中,S二I]c,;,=1 比较模糊向量C'中的各个元素的值,从中挑选出最大的隶属度值ck, 1《k《m ; 11)分类结果模糊评判,判断最大隶属度值ck与判别阈值a之间的关系,在归一化后的模糊向量C'中,若有且仅有一个元素的值Ck^ a,则判断新网页是归于第k类的;若每一个元素的值Ck《a ,则判断新网页是不属于本系统分类体系中的任一类别;若不止一个元素Ck》a ,则判断新网页是属于所有元素值大于a所对应的类别,由此得出分类并输出分类结果。判别阈值a的确定需要经过反复实验,综合所有类别的情况,使得各个分类的准确度保持在一个均衡的水平; 12)分类成功,结束; 其中,m是训练集网页的类别数目。 步骤1)所述的提取出网页中的中文文本内容的方法是通过阈值对比对网页的类型进行判断,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文,该方法的步骤为 a)依照所获得的网页源码得到该网页的标签树; b)通过和标准网页的相关阈值对比,确定步骤(a)所述网页的类型,网页类型包括主题型、链接型和图片型三种; c)判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题型网页,则转到步骤e); d)根据主题型网页主题的相关度计算,提取出网页主题内容块; e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤; f)提取网页的中文文本; g)结束。 有益效果 通过基于模糊数据挖掘的中文网页分类的方法,我们能够实现 1)运用模糊集理论及相关算法,根据训练样本网页库,建立分类词语描述库,得到特征词向量模糊矩阵; 2)对新网页进行相关预处理,包括对原始流量数据的清洗,待分类网页的预处理,得到新网页特征词模糊向量。 3)对相应中文网页内容进行分词,按照相关算法提取出关键词,并将中文网页关键词按权重排名; 4)构建模糊分类器,依照模糊分类匹配的方法,实现对中文网页的模糊分类,降低传统分类的人工费用,提高分类的效率。 具有广泛的意义和应用价值。主要可以应用在 1.互联网用户兴趣度分析; 2.搜索引擎目录更新; 3.Web内容挖掘; 4.在线文档管理; 5.数字图书馆建设。附图说明 图l基于模糊数据挖掘的中文网页自动分类的架构图。图中给出了系统的三个层面及其所包含的功能。 图2是基于内容规则的网页中文提取方法流程图。图中给出了网页中文提取的各个部分的处理过程。 图3是流程图。图中给出了中文网页模糊自动分类的各个部分的处理过程。具体实施例方式下面结合附图对专利技术的技术方案进行详细说明 本专利技术提出了一种基于模糊数据挖掘的中文网页自动分类技术框架,并详细设计了网页模糊分类算法,如附图3所示。从图中可以看出,系统总共分为三个层面,从下往上依次是数据采集层、业本文档来自技高网
...

【技术保护点】
一种基于模糊数据挖掘的中文网页自动分类方法,其特征在于该方法的步骤为:1)根据用户所输入待分类网页P的网址URL,进行待分类网页P的预处理,预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释等内容过滤去噪以及提取出网页中的中文文本内容;2)利用分词器对所提取出的中文文本内容进行分词操作,得到中文网页的分词后文本;3)通过关键词频度分析器,对能体现该待分类网页P的主题和关键内容的的关键词进行提取,并按照关键词权重对关键词进行排序,提取出待分类网页P的特征词集合T;4)初始化数据表D:该数据表D是用于存储构建分类词语描述库时所生产的总特征词集合Z的总特征词向量模糊矩阵R;总特征词是通过文本预处理、训练集总特征词选择以及总特征词集合模糊化的模块得到的;5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频度分析;6)判断总特征词集合Z中的特征词是否存在于待分类网页P中;如果待分类网页P存在该特征词t,则转入步骤7);如果不存在该特征词t,则转到步骤5);7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度;8)构造隶属函数,将待分类网页P进行模糊化处理,得到待分类网页P的特征词向量模糊矩阵B;9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊分类匹配,得到待分类网页P的分类结果模糊向量C={c↓[1],c↓[2],...,c↓[m]};10)对待分类网页P的分类结果模糊向量C={c↓[1],c↓[2],...,c↓[m]}进行“归一化”处理,得到归一化后的向量记为C′,C′=(c↓[1]/S,c↓[2]/S,...,c↓[m]/S),其中,S=*c↓[i];比较模糊向量C′中的各个元素的值,从中挑选出最大的隶属度值c↓[k],1≤k≤m;11)分类结果模糊评判,判断最大隶属度值c↓[k]与判别阈值α之间的关系,在归一化后的模糊向量C′中,若有且仅有一个元素的值c↓[k]≥α,则判断新网页是归于第k类的;若每一个元素的值c↓[k]≤α,则判断新网页是不属于本系统分类体系中的任一类别;若不止一个元素c↓[k]≥α,则判断新网页是属于所有元素值大于α所对应的类别,由此得出分类并输出分类结果。判别阈值α的确定需要经过反复实验,综合所有类别的情况,使得各个分类的准确度保持在一个均衡的水平;12)分类成功,结束;其中,m是训练集网页的类别数目。...

【技术特征摘要】

【专利技术属性】
技术研发人员:孙雁飞姚蓓丽张顺颐王攀
申请(专利权)人:南京邮电大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1