一种基于梯度下降法的多视图GEPSVM网页分类方法技术

技术编号:13832019 阅读:78 留言:0更新日期:2016-10-14 11:18
本发明专利技术提出了一种基于梯度下降法的多视图GEPSVM网页分类算法,包括MvGDSVM网页分类模型参数训练步骤和网页数据分类步骤;MvGDSVM网页分类模型参数训练步骤包括:步骤A:输入网页训练样本数据;步骤B:对网页训练样本数据进行预处理;步骤C:训练MvGDSVM网页分类模型参数;网页数据分类步骤包括:步骤a:输入待测网页样本数据;步骤b:对待测网页样本数据进行标准化预处理;步骤c:通过MvGDSVM网页分类模型对待测网页样本数据进行分类。本发明专利技术提出的基于梯度下降法的多视图GEPSVM网页分类算法,通过引入一个多视图协同规范化项来最大化不同视图间分类的一致性,从而有效地结合了两个单视图的提高性的广义特征值最接近支持向量机,最后利用共轭梯度下降法来求解生成的优化问题。

【技术实现步骤摘要】

本专利技术涉及网页分类
,尤其涉及一种基于梯度下降法的多视图GEPSVM网页分类算法(简称MvGDSVM网页分类算法)。
技术介绍
近年来,随着互联网的普及,网络信息呈指数级增长,它已经成为人们获取信息的重要手段。面对海量而又内容复杂的网络信息,很多时候无法准确定位自己想要的信息,而通过网页的分类,可以从海量的网络信息中迅速、准确的获取用户感兴趣的信息。目前,现有的广义特征值最接近支持向量机(Generalized eigenvalue proximal support vector machine,GEPSVM)以及提高性的广义特征值最接近支持向量机(Improved generalized eigenvalue proximal support vector machine,IGEPSVM)都是简单有效的分类方法。1.广义特征值最接近支持向量机a)线性的GEPSVM广义特征值最接近支持向量机是监督学习中一种简单且有效的二分类方法,利用两个超平面来对数据点进行分类。其中每一个超平面离两类数据的其中一类尽量近,离另外一类尽量远。广义特征值最接近支持向量机通过解一对广义特征值问题来获得这两个非平行的超平面。假设在实空间Rd中,有n个标签为yi(i=1,2,...,n)∈{+1,-1

【技术保护点】
一种基于梯度下降法的多视图GEPSVM网页分类算法,其特征在于,包括MvGDSVM网页分类模型参数训练步骤和网页数据分类步骤;所述MvGDSVM网页分类模型参数训练步骤包括:步骤A:输入网页训练样本数据;步骤B:对所述网页训练样本数据进行预处理;步骤C:训练MvGDSVM网页分类模型参数;所述网页数据分类步骤包括:步骤a:输入待测网页样本数据;步骤b:对所述待测网页样本数据进行标准化预处理;步骤c:通过MvGDSVM网页分类模型对所述待测网页样本数据进行分类。

【技术特征摘要】
1.一种基于梯度下降法的多视图GEPSVM网页分类算法,其特征在于,包括MvGDSVM网页分类模型参数训练步骤和网页数据分类步骤;所述MvGDSVM网页分类模型参数训练步骤包括:步骤A:输入网页训练样本数据;步骤B:对所述网页训练样本数据进行预处理;步骤C:训练MvGDSVM网页分类模型参数;所述网页数据分类步骤包括:步骤a:输入待测网页样本数据;步骤b:对所述待测网页样本数据进行标准化预处理;步骤c:通过MvGDSVM网页分类模型对所述待测网页样本数据进行分类。2.如权利要求1所述的基于梯度下降法的多视图GEPSVM网页分类算法,其特征在于,所述步骤B中的预处理包括:步骤B1:确定所述网页训练样本数据每个视图上的特征向量;步骤B2:对所有所述网页训练样本数据的每个视图上的特征向量分别作标准化处理。3.权利要求1所述的基于梯度下降法的多视图GEPSVM网页分类算法,其特征在于,所述步骤C中,通过多视图协同规范化项来最大化不同视图间分类的一致性。4.如权利要求1所述的基于梯度下降法的多视图GEPSVM网页分类算法,其特征在于,所述步骤C包括:步骤C1:在每个视图上最大化两类样本与超平面之间的距离差,同时最小化在同一个网页训练样本上两个假设函数作用在不同视图上的结果;步骤C2:使用共轭梯度下降法优化目标函数,给出目标函数的梯度。5.如权利要求1所述的基于梯度下降法的多视图GEPSVM网页分类算法,其特征在于,所述步骤C进一步包括:步骤C3:利用MvGDSVM求得分类超平面参数;步骤C4:分别计算每个视图上网页训练样本到两个超平面的垂直距离,得到决策函数的预测结果。6.如权利要求1所述的基于梯度下降法的多视图GEPSVM网页分类算法,其特征在于,所述步骤b中标准化预处理包括:步骤b1:确定待测网页样本数据每个视图上的特征向量;步骤b2:对所有待测网页网页数据的每个视图上的特征向量分别作标准化处理。7.如权利要求1所述的基于梯度下降法的多视图GEPSVM网页分类算法,其特征在于,所述步骤c中对所述待测网页数据进行分类包括:步骤c1:利用训练样本数据得到的MvGDSVM分类模型的最佳参数,分别计算每个视图上样本到两个超平面的垂直距离;步骤c2:利用训练时得到的最佳预测函数来对待测网页样本数据进行分类。8.如权利要求5或7所述的基于梯度下降法的多视图GEPSVM网页分类算法,其特征在于,线性的MvGDSVM中,每个视图上网页样本到两个超平面的垂直距离如下式:其中,view 1和view 2分别表示第一个视图和第二个视图;dist11表示网页样本数据在第一个视图上到第一个超平面的垂直距离,dist12表示网页样本数据在...

【专利技术属性】
技术研发人员:孙仕亮董超谢锡炯
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1