一种基于深度信念网络算法的不良网页智能检测方法技术

技术编号:20820103 阅读:32 留言:0更新日期:2019-04-10 05:59
本发明专利技术公开了一种基于深度信念网络算法的不良网页智能检测方法,包括以下步骤;构建判别指标的层次结构模型:为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系;不良网页判别指标样本集;基于SMOTE算法的指标集平衡化处理;提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系,来对不良网页判别指标进行约简,先采用SMOTE技术对样本数据集进行平衡处理操作,使分类器的分类效果不受样本数据集中多数类样本的影响,提出采用DBN作为分类器,并将处理后的样本作为分类器的输入来得到检测结果,验证了该分类器的高效性。

【技术实现步骤摘要】
一种基于深度信念网络算法的不良网页智能检测方法
本专利技术涉及到一种不良网页智能检测方法,特别涉及一种基于深度信念网络算法的不良网页智能检测方法。
技术介绍
随着科技的发展,互联网也呈现飞速发展的趋势,而搜索引擎作为用户使用互联网的重要应用之一,已经成为用户进行信息查询所必不可少的重要组成部分。中国互联网络信息中心发布的报告指出,2017年6月,中国的互联网用户数量已经增加至7.51亿。而搜索引擎作为互联网的必不可少的组成部分是当前使用率较高的互联网应用之一,也逐渐成为用户获取和访问互联网资源的重要渠道。用户通过浏览器可以发送查询请求,针对于用户的请求,搜索引擎可以对数据库服务器进行检索,并将检索的一系列相关结果反馈给用户。然而,研究表明,在这些搜索引擎返回的结果中,用户多数只查看前三页。也就是说,在返回结果中的排名越靠前,被搜索引擎用户查看的机会就会越大,伴随着带来更大的网络流量和商业利润。在利益的驱动下,越来越多的网站设计者在开发网页时针对搜索引擎对网页的检索方法,采取作弊手段将网页的搜索排名提高到与其实际水平和质量不相符合的位置,使网页尽可能多的被搜索引擎检索到,从而获得更高的本文档来自技高网...

【技术保护点】
1.一种基于深度信念网络算法的不良网页智能检测方法,其特征在于,包括以下步骤;S1:构建判别指标的层次结构模型:为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系;S2:不良网页判别指标样本集;S3:基于SMOTE算法的指标集平衡化处理;S31:过抽样技术中有一个重要的概念,称为过抽样倍率,在此我们用N来表示它,该概念是指从每个不良网页样本的最邻近的K个样本中任意挑选出N个样本;S32:按照下列公式的方式,将上述选取的N个样例与少数类样本分进行结合生成N个新的少数类样本。xnew=x+rand*(y[i]‑x),     (2...

【技术特征摘要】
1.一种基于深度信念网络算法的不良网页智能检测方法,其特征在于,包括以下步骤;S1:构建判别指标的层次结构模型:为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系;S2:不良网页判别指标样本集;S3:基于SMOTE算法的指标集平衡化处理;S31:过抽样技术中有一个重要的概念,称为过抽样倍率,在此我们用N来表示它,该概念是指从每个不良网页样本的最邻近的K个样本中任意挑选出N个样本;S32:按照下列公式的方式,将上述选取的N个样例与少数类样本分进行结合生成N个新的少数类样本。xnew=x+rand*(y[i]-x),(2-1)其中,i=1,2,…,N;使用x表示少数类样本;用rand来表示0到1之间的任意一个数;用xnew代表增加的新样本;用y[i]表示x的第i个临近的样本;S33:将通过上式计算得到的新样例加入到原始数据集中,从而得到新的数据集;S4:提出采用DBN作为分类器,DBN的最重要的两个过程是预训练和调优,并将处理后的样本作为分类器的输入来得到检测结果;S41:预训练的本质是参数初始化,需要初始化各层的神经元偏置及各层之间的连接权值,使用CD算法来初始化RBM层的相关参数,并使用有标记的数据样本作为输入;S42:调优通过预训练过程,每一层RBM将会获得相应的初始参数,预训练过程结束后,就可以对由多层RBM构建的DBN进行调优,在调优过程中,借助有标签样本,并采用BP神经网络来对DBN进行整体微调,从而获得最优的网络;S5:评估指标;精确度(Pre),召回率(Rec),F1测度(F1),Kappa值和曲线下面积(AUC);S6:实验结果及分析;S61:DBN的隐含层节点的数量,及其RBM的层数对不良网页的分类结果所能产生的影响;S62:不同的预训练集样本的数量对不良网页分类结果所能产生的影响。S63:预处理操作对分类结果所能产生的影响;S64:基于DBN的分类方法与其他两种典型不良网页分类方法的比较;S7:基于深度学习算法的不良网页检测系统的设计;S71:系统的设计原则;S72:系统的功能结构;S73:系统的结构设计;S74:系统的数据库设计。2.根据权利要求1所述的一种基于深度信念网络算法的不良网页智能检测方法,其特征在于:针对S1中,内容、链接、质量和隐藏特征为分目标层又可分为一级指标,即内容指标的一级指标为...

【专利技术属性】
技术研发人员:邱日轩肖子洋付晨
申请(专利权)人:国网江西省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1