基于特征选择的网页文本分类方法技术

技术编号:10072766 阅读:140 留言:0更新日期:2014-05-23 19:14
基于特征选择的网页文本分类方法,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。

【技术实现步骤摘要】

本专利技术属于数据挖掘方法
,涉及一种基于特征选择的网页文本分类方法
技术介绍
随着计算机与通讯技术的快速发展、互联网迅速普及应用,网络上的网页正以几何级数的速度增长。面对这些爆炸式增长的海量网络信息,如何从中快速、有效地获得有用的、感兴趣的信息变得越来越重要。因此,有效地组织和管理网页资源,缩短用户获取所需信息的时间,成为了目前急需解决的问题。网页分类技术应运而生,并逐渐成为继文本分类之后机器学习领域的研究热点。传统上的网页分类是先由人工判断类别,即在分析网页的内容之后,人工手动选择一个合适的类别。但是,这种人工分类的做法存在着许多缺点:一是在网页文本数量急剧增长的情况下,用人工分类方法来进行分类变得不切实际,需要耗费大量的人力资源;二是人工对网页文本进行分类无法保证较高的分类准确率,主要是由于每个人的经验知识等主观因素不同,分类结果可能会出现不一致的情况。因此,急需一种有效的方法对网页文本进行管理,由此网页文本自动分类技术开始显示出其优越性。网页文本自动分类技术来源于文本自动分类技术,其目标和文本分类技术一致,即在预先定义的网页分类体系下,把待分类的网页准确归属到一个或多个相应的类别。常用的网页文本分类算法有以下几种:KNN算法、NB(Naive Bayes)算法、支持向量机(SVM)、遗传算法(GA)、Rocchio算法等。这些网页文本自动分类技术仍然存在着许多问题,如网页文本特征空间的维数过高,导致存储空间大,分类速度慢;网页中包含有大量网站标记、广告等噪声信息,严重干扰了对网页类别的确定,从而降低了分类的准确率;同时网页中不同位置的信息表达网页的能力不同,对分类的准确性有一定的影响。因此,迫切需要找到一种有效的网页文本分类技术,来减少分类的时间,并提高分类的准确率。
技术实现思路
本专利技术的目的是提供一种基于特征选择的网页文本分类方法,解决现有技术存在的分类速度慢、准确率不高的问题。本专利技术的技术方案是,基于特征选择的网页文本分类方法,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。本专利技术的特点还在于:特征词为对网页进行预处理后得到的能表示网页内容的词。训练集中的网页包含若干个不同的类,对每个类中的网页进行计算得到每个类的特征向量,然后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每个类的特征向量的相似度,采用相似度最大的类作为待分类网页的所属类,得到对网页进行分类的结果。数据集中的训练集进行一系列的计算构造网页分类器,测试集用于测试该网页分类器对网页进行分类的性能优劣。具体步骤如下:1.把由大量的网页构成的数据集分为训练集和测试集两部分,一般要求训练集取数据集的80%左右,测试集取剩余部分;2.对数据集(包括训练集和测试集)进行预处理,主要是对网页进行分词,即将网页内的文本切分成单个的词语,去除网页中对分类无关的噪音信息,去除停用词即无实际含义或应用很广泛的词;3.结合特征词的位置特征,计算训练集中每个网页内特征词的词频;4.结合特征词的类内分布率和类间偏差,计算训练集中每个网页内特证词的权重(TFIDF);5.根据每个网页内特证词的权重,计算训练集中每个网页的文本特征向量;6.根据每个类中各网页的文本特征向量,计算训练集中每个类的特征向量;7.结合特征词的位置特征,计算测试集中每个网页内特征词的词频;8.利用向量空间模型进行网页分类,采用两个特征向量间的余弦夹角公式计算待分类网页与训练集中每一个类之间的相似度,并采用相似度最大的类作为待分类网页的所属类。计算特征词的词频时,考虑其位置的影响,本专利技术根据实际经验并参考前人的研究成果,认为表示网页中心内容的标题,其权重最高;对概括和强调网页起关键作用的简介和关键字,其权重次之;网页正文,其权重最低。计算特征词tk的权重时结合特征词tk的类间偏差EDkj和类内分布率IDkj,其中,类间偏差EDkj的计算公式如下:EDkj=N(tk,Cj)Σx=1mN(tk,Cx)---(1)]]>式中,N(tk,Cj)表示类Cj中出现特征词tk的文档个数,表示所有类中出现特征词tk的文档个数,m为训练集中类别的个数。类内分布率IDkj的计算公式如下:IDkj=M(tk,Cj)M(Cj)---(2)]]>式中,M(tk,Cj)表示类Cj中特征词tk出现的总次数,M(Cj)表示类Cj中所有词出现的总次数。权重的计算公式如下:Wik=(di)=tfik(di)×log(N(D)N(tk,D)+0.01)Σk=1n(tfik(di))2×[log(N(D)N(tk,D)+0.01)]2×EDkj×IDkj---(3)]]>其中,tfik(di)是根据特征词tk在网页中的位置进行修正后的新词频,N(D)为训练集中的总文档数,N(tk,D)为文档集D中出现特征词tk的文档数,n为文档di中特征词的总个数,EDkj为特征词tk的类间偏差,IDkj为特征词tk的类内分布律。大量的网页为最少6000个。本专利技术具有如下有益效果:1.分类正确率上,对比传统TFIDF算法和遗传算法(GA),本专利技术分类方法在分类正确率上优于其他2个对比算法。主要原因是:①在计算特征词的词频时,考虑了特征词在网页中的位置对词频的影响,对其进行了修正,有效的提高了分类的正确率;②在计算特征词权重时,综合了特征词的类内分布率和类间偏差,进一步提高了分类的正确率。2.分类时间上,由于本专利技术分类方法在计算特征词权重时,考虑了特征词在网页中的位置、特征词在类内及类间的分布,所以,相比于同样具有较好分类效果的遗传算法,大大缩短了执行时间。3.本专利技术召回率整体上比传统的TFIDF算法及遗传算法都高。附图说明图1是本专利技术基于特征选择的网页文本分类方法与现有技术的...
基于特征选择的网页文本分类方法

【技术保护点】
基于特征选择的网页文本分类方法,其特征在于,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。

【技术特征摘要】
1.基于特征选择的网页文本分类方法,其特征在于,首先,把
由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据
网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计
算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率
之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练
集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最
后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练
集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的
所属类,得到分类结果。
2.如权利要求1所述的基于特征选择的网页文本分类方法,
其特征在于,特征词为对网页进行预处理后得到的能表示网页内容的
词。
3.如权利要求1所述的基于特征选择的网页文本分类方法,其
特征在于,所述训练集中的网页包含若干个不同的类,对每个类中
的网页进行计算得到每个类的特征向量,然后,计算测试集中每个网
页内特征词的词频,以及待分类网页与训练集中每个类的特征向量的
相似度,采用相似度最大的类作为待分类网页的所属类,得到对网页
进行分类的结果。数据集中的训练集进行一系列的计算构造网页分类
器,测试集用于测试该网页分类器对网页进行分类的性能优劣。
4.如权利要求1-3任一项所述的基于特征选择的网页文本分类
方法,其特征在于,具体步骤如下:
1)把由大量的网页构成的数据集分为训练集和测试集两部分,
一般要求训练集取数据集的80%左右,测试集取剩余部分;
2)对数据集(包括训练集和测试集)进行预处理,主要是对网
页进行分词,即将网页内的文本切分成单个的词语,去除网页中对分
类无关的噪音信息,去除停用词即无实际含义或应用很广泛的词;
3)结合特征词的位置特征,计算训练集中每个网页内特征词的
词频;
4)结合特征词的类内分布率和类间偏差,计算训练集中每个网
页内特证词的权重(TFIDF);
5)根据每个网页内特证词的权重,计算训练集中每个网页的文
本特征向量;
6)根据每个类中各网页的文本特征向量,计算训练集中每个类
的特征向量;
7)结合特征词的位置特征,计算测试集中...

【专利技术属性】
技术研发人员:周红芳郭杰王鹏张国荣段文聪王心怡何馨依
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1