一种基于混合算法的网页分类方法和装置制造方法及图纸

技术编号:14708408 阅读:108 留言:0更新日期:2017-02-26 00:39
本发明专利技术公开一种基于混合算法的网页分类方法及装置,所述方法包括:步骤a,待分类网页进行处理得到网页数据;步骤b,对所述网页数据进行处理,用向量空间模型将特征向量转化成数值形式;步骤c,建立SVM的分类模型,并利用SVM分类器对待分类网页进行分类;步骤d,将SVM分类器输出的符合分类条件的所述特征向量输送至朴素贝叶斯分类器当中进行分类;步骤e,利用朴素贝叶斯分类器对所述待分类网页的所述特征向量进行分类;所述装置,包括网页处理单元,数据转换单元,SVM分类单元,数据输送单元和贝叶斯分类单元。这样,先采用SVM进行二分类,然后再用朴素贝叶斯方法进行多分类,分类更迅速,更精确。

【技术实现步骤摘要】

本专利技术涉及网页分类
,具体涉及一种基于混合算法的网页分类方法和装置
技术介绍
随着互联网及其相关技术的飞速发展,出现了海量且庞杂的网络信息资源。如何从这些海量的非结构化数据中提取和产生知识,找到人们感兴趣的内容,已经成为当前迫切需要解决的问题。各种搜索引擎如Google,百度,Yahoo等的出现开始对这一问题有所缓解,但是这些搜索工具面向的是所有用户,他们通常是把一个通用性的结果返回给所有用户,这样并不能满足处于特定时期,特定领域,特定目的的查询要求。人们真正感兴趣的东西往往被淹没在浩瀚的信息海洋里,那么如何有效地组织、处理这些海量信息,如何更好地分配、利用所需的网络信息资源便成为了亟待解决的问题。支持向量机(SVM)是根据统计学习理论,以结构风险最小化原则为理论基础的一种新的机器学习方法,其主要思想是针对二分类问题,在高维空间中寻找一个超平面作为二类的分割,以保证最小的错分率,但是缺点是针对大量数据分类时SVM训练时间过长。朴素贝叶斯是一类利用概率统计知识进行分类的算法,但是单独使用精确度不够高。鉴于上述缺陷,本专利技术创作者经过长时间的研究和实践终于获得了本专利技术。
技术实现思路
为解决上述技术缺陷,本专利技术采用的技术方案在于,提供一种基于混合算法的网页分类方法,其包括:步骤a,搜索待分类网页,对所述待分类网页进行处理得到网页数据;步骤b,对所述网页数据进行处理,用向量空间模型将所述网页数据转换为文本表示,计算词条项的权值并将所述待分类网页的特征向量转化成数值形式;步骤c,利用数值形式的特征向量作为训练数据,建立SVM的分类模型,并利用SVM分类器对待分类网页的所述特征向量进行分类;步骤d,将SVM分类器输出的符合分类条件的所述特征向量输送至朴素贝叶斯分类器当中进行分类;步骤e,利用朴素贝叶斯分类器对所述待分类网页的所述特征向量进行分类。较佳的,所述步骤c包括:步骤c1,利用数值形式的特征向量作为训练数据,确定分类公式,建立SVM的分类模型;步骤c2,利用SVM分类器的所述分类公式对所述待分类网页的特征向量进行计算,确认所述特征向量是否使所述分类公式成立,从而将所述特征向量分为两类。较佳的,所述步骤e包括:步骤e1,从SVM分类器输出的所述特征向量中选择一部分作为训练样本,确定所述训练样本中每个特征向量对应的特征属性,以及每个特征向量对应的所述待分类网页的类别;步骤e2,统计所述训练样本中所述待分类网页各个类别出现的频率以及各类别下各个特征属性的条件概率估计;步骤e3,对SVM分类器输出的所述待分类网页中的所述特征属性进行分析,计算该待分类网页属于各个类别的类别概率;步骤e4,确定所述待分类网页的类别概率中数值最大的类别概率,该类别概率对应的类别为所述待分类网页的类别。较佳的,所述步骤e3中,所述待分类网页的类别概率的计算公式为:其中,x为待分类网页的特征向量,i为类别的序号,j为特征属性的序号,m为特征属性的总数,C为常数,yi为第i个类别,aj为第j个特征属性,P(yi)为第i个类别出现的频率,P(aj|yi)为第i个类别中第j个特征数学的条件概率估计,P(yi|x)为待分类网页的类别概率。较佳的,所述网页数据为半结构化数据。较佳的,所述步骤b中,所述词条项的权值计算公式为:其中,ωi(d)为第i个词条项在文本d中的权值,ωi(d)为第i个词条项在文本d中出现的词频,N为所有文本的数目,ni为出现了第i个词条项的文本的数目。较佳的,所述步骤c中,所述SVM分类模型的核函数为RBF核函数。其次提供一种与上述所述的网页分类方法对应的基于混合算法的网页分类装置,其包括:网页处理单元,搜索待分类网页,对所述待分类网页进行处理得到网页数据;数据转换单元,对所述网页数据进行处理,用向量空间模型将所述网页数据转换为文本表示,计算词条项的权值并将所述待分类网页的特征向量转化成数值形式;SVM分类单元,利用数值形式的特征向量作为训练数据,建立SVM的分类模型,并利用SVM分类器对待分类网页的所述特征向量进行分类;数据输送单元,将SVM分类器输出的符合分类条件的所述特征向量输送至朴素贝叶斯分类器当中进行分类;贝叶斯分类单元,利用朴素贝叶斯分类器对所述待分类网页的所述特征向量进行分类。较佳的,所述SVM分类单元包括:模型建立模块,利用数值形式的特征向量作为训练数据,确定分类公式,建立SVM的分类模型;模型分类模块,利用SVM分类器的所述分类公式对所述待分类网页的特征向量进行计算,确认所述特征向量是否使所述分类公式成立,从而将所述特征向量分为两类。较佳的,所述贝叶斯分类单元包括:特征确定模块,从SVM分类器输出的所述特征向量中选择一部分作为训练样本,确定所述训练样本中每个特征向量对应的特征属性,以及每个特征向量对应的所述待分类网页的类别;概率统计模块,统计所述训练样本中所述待分类网页各个类别出现的频率以及各类别下各个特征属性的条件概率估计;概率计算模块,对SVM分类器输出的所述待分类网页中的所述特征属性进行分析,计算该待分类网页属于各个类别的类别概率;类别确定模块,确定所述待分类网页的类别概率中数值最大的类别概率,该类别概率对应的类别为所述待分类网页的类别。与现有技术比较本专利技术的有益效果在于:一种基于混合算法的网页分类方法和装置,利用SVM分类模型结合朴素贝叶斯支持增量式训练的特点,先采用SVM进行二分类,然后再用朴素贝叶斯方法进行多分类,分类更迅速,更精确;且当收录新的数据后能够自动进行调整,修正判断,提高准确率而不需要重新训练。它拥有提高分类计算效率与分类准确率、降低算法复杂度的优点。这种混合分类方法可以为网页分类以及实时营销提供快速准确的用户需求。附图说明为了更清楚地说明本专利技术各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。图1是本专利技术基于混合算法的网页分类方法的流程图;图2是本专利技术基于混合算法的网页分类方法步骤c的流程图;图3是本专利技术基于混合算法的网页分类方法步骤c的流程图;图4是本专利技术基于混合算法的网页分类装置的结构示意图;图5是本专利技术基于混合算法的网页分类装置SVM分类单元的结构示意图;图6是本专利技术基于混合算法的网页分类装置贝叶斯分类单元的结构示意图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。实施例1如图1所示,其为本专利技术基于混合算法的网页分类方法的流程图,其中,所述基于混合算法的网页分类方法包括:步骤a,搜索待分类网页,对所述待分类网页进行处理得到网页数据;从所述待分类网页中获得网页数据,是通过这个页面的url来得到这个网页里面的某些数据,可用HttpClient获得。这些信息可以包括浏览量(PV)、访问次数、访客数(UV)、新访客数、新访客比率、IP、跳出率、平均访问时长、平均访问页数、转化次数、转化率等等。所述网页数据为半结构化数据,通常表现为HTML格式。在中文网页的表示中,通过采用信息搜集系统搜索相关网页,将HTML文件中的标题与正文分别处理,(标题也作为正文的一部分),这样就可以将网页的表示转换为文本的表示。和普通纯文本相比,半结构化数据具有一定的结构性,但又不是具有严格理论模型的关系数据库的数据。比如XML就比较适合存储本文档来自技高网...
一种基于混合算法的网页分类方法和装置

【技术保护点】
一种基于混合算法的网页分类方法,其特征在于,包括:步骤a,搜索待分类网页,对所述待分类网页进行处理得到网页数据;步骤b,对所述网页数据进行处理,用向量空间模型将所述网页数据转换为文本表示,计算词条项的权值并将所述待分类网页的特征向量转化成数值形式;步骤c,利用数值形式的所述特征向量作为训练数据,建立SVM的分类模型,并利用SVM分类器对所述待分类网页的所述特征向量进行分类;步骤d,将所述SVM分类器输出的符合分类条件的所述特征向量输送至朴素贝叶斯分类器当中进行分类;步骤e,利用所述朴素贝叶斯分类器对所述待分类网页的所述特征向量进行分类。

【技术特征摘要】
1.一种基于混合算法的网页分类方法,其特征在于,包括:步骤a,搜索待分类网页,对所述待分类网页进行处理得到网页数据;步骤b,对所述网页数据进行处理,用向量空间模型将所述网页数据转换为文本表示,计算词条项的权值并将所述待分类网页的特征向量转化成数值形式;步骤c,利用数值形式的所述特征向量作为训练数据,建立SVM的分类模型,并利用SVM分类器对所述待分类网页的所述特征向量进行分类;步骤d,将所述SVM分类器输出的符合分类条件的所述特征向量输送至朴素贝叶斯分类器当中进行分类;步骤e,利用所述朴素贝叶斯分类器对所述待分类网页的所述特征向量进行分类。2.如权利要求1所述的网页分类方法,其特征在于,所述步骤c包括:步骤c1,利用数值形式的所述特征向量作为训练数据,确定分类公式,建立SVM的分类模型;步骤c2,利用所述SVM分类器的所述分类公式对所述待分类网页的所述特征向量进行计算,确认所述特征向量是否使所述分类公式成立,从而将所述特征向量分为两类。3.如权利要求1或2所述的网页分类方法,其特征在于,所述步骤e包括:步骤e1,从所述SVM分类器输出的所述特征向量中选择一部分作为训练样本,确定所述训练样本中每个特征向量对应的特征属性,以及每个特征向量对应的所述待分类网页的类别;步骤e2,统计所述训练样本中所述待分类网页各个类别出现的频率以及各类别下各个特征属性的条件概率估计;步骤e3,对所述SVM分类器输出的所述待分类网页中的所述特征属性进行分析,计算该待分类网页属于各个类别的类别概率;步骤e4,确定所述待分类网页的类别概率中数值最大的类别概率,该类别概率对应的类别为所述待分类网页的类别。4.如权利要求3所述的网页分类方法,其特征在于,所述步骤e3中,所述待分类网页的类别概率的计算公式为:P(yi|x)=P(yi)×C×Πj=1mP(aj|yi)]]>其中,x为待分类网页的特征向量,i为类别的序号,j为特征属性的序号,m为特征属性的总数,C为常数,yi为第i个类别,aj为第j个特征属性,P(yi)为第i个类别出现的频率,P(aj|yi)为第i个类别中第j个特征数学的条件概率估计,P(yi|x)为待分类网页的类别概率。5.如权利要求1或2所述的网页分类方法,其特征在于,所述网页数据为半结构化数据。6.如权利要求1或2所述的网页...

【专利技术属性】
技术研发人员:邹立斌李青海简宋全侯大勇
申请(专利权)人:广州精点计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1