基于卷积神经网络的赌博网站识别方法和系统技术方案

技术编号:18007045 阅读:135 留言:0更新日期:2018-05-21 07:40
本发明专利技术涉及一种基于卷积神经网络的赌博网站识别方法和系统。该方法包括以下步骤:批量获取网站的网页截图;标注网页截图的类别;以标注的网页截图作为训练数据,训练卷积神经网络模型;利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。该系统包括批量网页截图模块、网站类别标注模块、模型训练模块和预测模块。本发明专利技术通过深度神经网络对网站网页截图的特征进行学习,使用的是整个网站的截图,区别于使用网页里面的图片进行分类的方法,并且不再依靠网页源码中的文本信息,从根本上解决了该类不良网站的识别问题。

【技术实现步骤摘要】
基于卷积神经网络的赌博网站识别方法和系统
本专利技术属于信息
,涉及赌博网站检测技术,具体涉及一种基于卷积神经网络的赌博网站识别方法和系统。
技术介绍
随着计算机技术的飞速发展,互联网走进了千家万户,但网络给人们带来信息和方便的同时,也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络,不仅严重污染着未成年人的心灵,也破坏了社会风气。现有的针对赌博网站的检测技术主要包括提取网页的文本内容,对文本进行预处理、分词、特征选择、分类训练等步骤,通过基于文本的机器学习方法对网页进行分类,从而实现对网站分类的目的。然而随着不良网站的不断迭代,基于多重JS加载形式的网站越来越多,由于难以提取文本内容,原本基于文本的检测方法难以奏效。又由于不良网站的模板不断迭代,基于文本的方法需要根据不同的模板通过人工不断更新提取文本的规则,费时费力。
技术实现思路
本专利技术提供一种基于卷积神经网络的赌博网站识别方法和系统,能够解决文本特征方法难以处理新出现的网站模板的问题,提高赌博网站检测的准确率。判断一个网站是否为赌博网站,标准在于网页加载完成后是否具有赌博内容。因此本专利技术通过深度神经网络对网站网页截图的特征进行学习,使用的是整个网站的截图,区别于使用网页里面的图片进行分类的方法,并且不再依靠网页源码中的文本信息,从根本上解决了该类不良网站的识别问题。本专利技术采用的技术方案如下:一种基于卷积神经网络的赌博网站识别方法,包括以下步骤:批量获取网站的网页截图;标注网页截图的类别;以标注的网页截图作为训练数据,训练卷积神经网络模型;利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。进一步地,对标注的网站网页截图进行预处理操作,以便于进行模型训练。进一步地,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。进一步地,所述获取网站的网页截图包括使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。进一步地,采用人工方式标注网站网页截图的类别。进一步地,所述卷积神经网络模型包括:输入层、两层卷积层、两层池化层、扁平化层、两层随机丢弃层和全连接层。一种基于卷积神经网络的赌博网站识别系统,其包括:批量网页截图模块,用于批量获取网站的网页截图;网站类别标注模块,用于标注网页截图的类别;模型训练模块,用于以标注的网页截图作为训练数据,训练卷积神经网络模型;预测模块,用于利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。进一步地,还包括截图预处理模块,用于对网站类别标注模块标注的网页截图进行预处理操作,以便于进行模型训练。进一步地,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。进一步地,所述批量网页截图模块使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。进一步地,所述网站类别标注模块采用人工方式标注网页截图的类别。本专利技术使用标注的网页截图作为训练数据训练网站分类器,并将卷积神经网络模型用于网站的分类中,具有以下有益效果:1)本专利技术不再依赖网页文本信息来进行网站分类,从而解决了对于某些JS加载类型的网站无法获取文本的问题。2)本专利技术直接对赌博网站的图片特征进行学习,从根本上解决了因为网站模板不断更新而导致的需要不断更新文本特征提取方法的问题。3)与基于网页内图片识别的方法相比,本专利技术因抓取并统筹考虑了整个网页快照,既能覆盖未包含任何图片的赌博网页,也能充分的将网页布局、文字式样等视觉信息考虑在内,覆盖更广、适应性也更强。4)本专利技术具有较高的检测准确率。在使用3920个样本作为训练数据的条件下,测试集的准确率达到89%。附图说明图1:赌博网站示例图。图2:网站的源码示例图。图3:基于文本特征的网站分类方法流程图。图4:基于卷积神经网络的网站分类方法流程图。图5:卷积神经网络结构示意图。图6:训练集与测试集的获取与应用流程图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步详细说明。以一个赌博网站为例,图1是该赌博网站的首页截图,对该网页截图进行人工判断很容易确定该网站是赌博网站,但是如果依照提取网页文本的方法来处理该类型的网站则极容易出错。图2是该赌博网站中网页的源码信息摘取的片段,从该网站的源码中可以看出,该网页所包含的文本内容为正常内容,但是这部分文本内容实际上没有显示,而显示出来的内容则是通过JS加载出来的包含赌博内容的框架(Frame)。如果根据图3所示的基于文本特征的方法来检测该网站,则在第二步提取文本特征时提取得到的是正常的文本,从而导致模型对该网站的误判。由于网页文本可以被伪造从而干扰模型判断,本专利技术使用网站页面快照(网页截图)来进行训练和分类。考虑到系统的效率,本专利技术优选采用网站的首页截图来进行训练和分类。下面以网站的首页截图为例进行说明。图4是本实施例的基于卷积神经网络的网站分类方法流程图。首先获取网站的首页截图并进行人工标注。因为快照截图为彩色图像,有RGB三个通道,本专利技术采用基于均值的方法将彩色图像转换成为灰度图像。为了减小模型训练的计算量,在转换为灰度图之后对图片进行了缩放操作,将原有网站截图从1024×768缩放到256×192,再对得到的图片进行白化操作。将人工标注后的图片进行上述操作后,作为卷积神经网络的输入,将网站的类别作为卷积神经网络的输出,来训练卷积神经网络图片分类模型,然后利用训练好的模型对网站进行分类。类别共有两类:0,表示正常网站;1,表示赌博网站。本专利技术所采用的卷积神经网络结构如图5所示,其中:InputLayer为输入层,其中64为每批输入图片的个数,252为图片长度,192为图片宽度,1为默认值。Conv2dLayer为卷积层,模型中共有两层卷积层。其中shape为卷积核的形状,strides为卷积核的滑动参数,pad为对边缘补全像素的填充方法,act为采用的激活函数。PoolLayer为池化层,模型中共有两层池化层。其中ksize为池化单元的大小,strides为池化单元滑动参数,padding为对边缘补全像素的填充方法,pool为池化方法。FlattenLayer为扁平化层,将池化层的结果扁平化处理后输出到DropoutLayer。DropoutLayer为随机丢弃层,模型中共有两层随机丢弃层,以keep的概率随机选择是否更新权重,is_fix为随机丢弃标志。DenseLayer为全连接层,负责链接FlattenLayer和输出层。本专利技术的另一实施例提供一种采用上述方法的基于卷积神经网络的赌博网站识别系统。该系统主要包括以下几个部分:批量网页截图模块、网站类别标注模块、截图预处理模块、模型训练模块和预测模块。下面将按顺序介绍每个模块所做的工作。a)批量网页截图模块,用于批量截取训练集和测试集的网站首页的截图。使用多线程的网页加载渲染工具可以快速的实现大批量网页的加载和渲染,实现快速的首页截图。b)网站类别标注模块,用于采用人工方式标注网站的首页截图的类别。c)截图预处理模块,用于对截取的图片进行转灰度、缩放、白化操作。白化操作是对前两步得到的图像进行去冗余和零方差处理,上本文档来自技高网...
基于卷积神经网络的赌博网站识别方法和系统

【技术保护点】
一种基于卷积神经网络的赌博网站识别方法,其特征在于,包括以下步骤:批量获取网站的网页截图;标注网页截图的类别;以标注的网页截图作为训练数据,训练卷积神经网络模型;利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。

【技术特征摘要】
1.一种基于卷积神经网络的赌博网站识别方法,其特征在于,包括以下步骤:批量获取网站的网页截图;标注网页截图的类别;以标注的网页截图作为训练数据,训练卷积神经网络模型;利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。2.如权利要求1所述的方法,其特征在于,对标注的网页截图进行预处理操作,以便于进行模型训练。3.如权利要求2所述的方法,其特征在于,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。4.如权利要求1所述的方法,其特征在于,所述获取网站的网页截图包括使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。5.如权利要求1所述的方法,其特征在于,采用人工方式标注网站网页截图的类别。6.如权利要求1所述的方法,其特征在于,所述卷积神经网络模型包括:输入层、两层卷积...

【专利技术属性】
技术研发人员:陈立国张跃冬袁晓彤耿光刚延志伟
申请(专利权)人:中国互联网络信息中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1