基于特征选择的网页文本分类方法技术

技术编号：10072766 阅读：140 留言：0更新日期：2014-05-23 19:14

基于特征选择的网页文本分类方法，首先，把由大量的网页构成的数据集分为训练集和测试集两部分；然后，根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重，并计算训练集中每个网页内特征词的权重（归一化后的词频与反文档频率之积）；在所得权重的基础上结合类内分布率和类间偏差，计算训练集中每个网页的特征向量，继而计算训练集中每个类的特征向量；最后，计算测试集中每个网页内特征词的词频，以及待分类网页与训练集中每一个类之间的相似度，采用相似度最大的类作为待分类网页的所属类，得到分类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘方法
，涉及一种基于特征选择的网页文本分类方法。
技术介绍
随着计算机与通讯技术的快速发展、互联网迅速普及应用，网络上的网页正以几何级数的速度增长。面对这些爆炸式增长的海量网络信息，如何从中快速、有效地获得有用的、感兴趣的信息变得越来越重要。因此，有效地组织和管理网页资源，缩短用户获取所需信息的时间，成为了目前急需解决的问题。网页分类技术应运而生，并逐渐成为继文本分类之后机器学习领域的研究热点。传统上的网页分类是先由人工判断类别，即在分析网页的内容之后，人工手动选择一个合适的类别。但是，这种人工分类的做法存在着许多缺点：一是在网页文本数量急剧增长的情况下，用人工分类方法来进行分类变得不切实际，需要耗费大量的人力资源；二是人工对网页文本进行分类无法保证较高的分类准确率，主要是由于每个人的经验知识等主观因素不同，分类结果可能会出现不一致的情况。因此，急需一种有效的方法对网页文本进行管理，由此网页文本自动分类技术开始显示出其优越性。网页文本自动分类技术来源于文本自动分类技术，其目标和文本分类技术一致，即在预先定义的网页分类体系下，把待分类的网页准确归属到一个或多个相应的类别。常用的网页文本分类算法有以下几种：KNN算法、NB(Naive Bayes)算法、支持向量机(SVM)、遗传算法(GA)、Rocchio算法等。这些网页文本自动分类技术仍然存在着许

【技术保护点】
基于特征选择的网页文本分类方法，其特征在于，首先，把由大量的网页构成的数据集分为训练集和测试集两部分；然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重，并计算训练集中每个网页内特征词的权重（归一化后的词频与反文档频率之积）；在所得权重的基础上结合类内分布率和类间偏差，计算训练集中每个网页的特征向量，继而计算训练集中每个类的特征向量；最后，计算测试集中每个网页内特征词的词频，以及待分类网页与训练集中每一个类之间的相似度，采用相似度最大的类作为待分类网页的所属类,得到分类结果。

【技术特征摘要】
1.基于特征选择的网页文本分类方法，其特征在于，首先，把
由大量的网页构成的数据集分为训练集和测试集两部分；然后,根据
网页标签域中的信息表达网页内容的能力赋予标签不同的权重，并计
算训练集中每个网页内特征词的权重（归一化后的词频与反文档频率
之积）；在所得权重的基础上结合类内分布率和类间偏差，计算训练
集中每个网页的特征向量，继而计算训练集中每个类的特征向量；最
后，计算测试集中每个网页内特征词的词频，以及待分类网页与训练
集中每一个类之间的相似度，采用相似度最大的类作为待分类网页的
所属类,得到分类结果。
2.如权利要求1所述的基于特征选择的网页文本分类方法，
其特征在于，特征词为对网页进行预处理后得到的能表示网页内容的
词。
3.如权利要求1所述的基于特征选择的网页文本分类方法，其
特征在于，所述训练集中的网页包含若干个不同的类，对每个类中
的网页进行计算得到每个类的特征向量，然后，计算测试集中每个网
页内特征词的词频，以及待分类网页与训练集中每个类的特征向量的
相似度，采用相似度最大的类作为待分类网页的所属类,得到对网页
进行分类的结果。数据集中的训练集进行一系列的计算构造网页分类
器，测试集用于测试该网页分类器对网页进行分类的性能优劣。
4.如权利要求1-3任一项所述的基于特征选择的网页文本分类
方法，其特征在于，具体步骤如下:
1）把由大量的网页构成的数据集分为训练集和测试集两部分，
一般要求训练集取数据集的80%左右，测试集取剩余部分；
2）对数据集（包括训练集和测试集）进行预处理，主要是对网
页进行分词，即将网页内的文本切分成单个的词语，去除网页中对分
类无关的噪音信息，去除停用词即无实际含义或应用很广泛的词；
3）结合特征词的位置特征，计算训练集中每个网页内特征词的
词频；
4）结合特征词的类内分布率和类间偏差，计算训练集中每个网
页内特证词的权重（TFIDF）；
5）根据每个网页内特证词的权重，计算训练集中每个网页的文
本特征向量；
6）根据每个类中各网页的文本特征向量，计算训练集中每个类
的特征向量；
7）结合特征词的位置特征，计算测试集中...

【专利技术属性】
技术研发人员：周红芳，郭杰，王鹏，张国荣，段文聪，王心怡，何馨依，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人