基于卷积神经网络的赌博网站识别方法和系统技术方案

技术编号：18007045 阅读：135 留言：0更新日期：2018-05-21 07:40

本发明专利技术涉及一种基于卷积神经网络的赌博网站识别方法和系统。该方法包括以下步骤：批量获取网站的网页截图；标注网页截图的类别；以标注的网页截图作为训练数据，训练卷积神经网络模型；利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别，判断其是否为赌博网站。该系统包括批量网页截图模块、网站类别标注模块、模型训练模块和预测模块。本发明专利技术通过深度神经网络对网站网页截图的特征进行学习，使用的是整个网站的截图，区别于使用网页里面的图片进行分类的方法，并且不再依靠网页源码中的文本信息，从根本上解决了该类不良网站的识别问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积神经网络的赌博网站识别方法和系统
本专利技术属于信息
，涉及赌博网站检测技术，具体涉及一种基于卷积神经网络的赌博网站识别方法和系统。
技术介绍
随着计算机技术的飞速发展，互联网走进了千家万户，但网络给人们带来信息和方便的同时，也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络，不仅严重污染着未成年人的心灵，也破坏了社会风气。现有的针对赌博网站的检测技术主要包括提取网页的文本内容，对文本进行预处理、分词、特征选择、分类训练等步骤，通过基于文本的机器学习方法对网页进行分类，从而实现对网站分类的目的。然而随着不良网站的不断迭代，基于多重JS加载形式的网站越来越多，由于难以提取文本内容，原本基于文本的检测方法难以奏效。又由于不良网站的模板不断迭代，基于文本的方法需要根据不同的模板通过人工不断更新提取文本的规则，费时费力。
技术实现思路
本专利技术提供一种基于卷积神经网络的赌博网站识别方法和系统，能够解决文本特征方法难以处理新出现的网站模板的问题，提高赌博网站检测的准确率。判断一个网站是否为赌博网站，标准在于网页加载完成后是否具有赌博内容。因此本专利技术通过深度神经网络对网站网页截图的特征进行学习，使用的是整个网站的截图，区别于使用网页里面的图片进行分类的方法，并且不再依靠网页源码中的文本信息，从根本上解决了该类不良网站的识别问题。本专利技术采用的技术方案如下：一种基于卷积神经网络的赌博网站识别方法，包括以下步骤：批量获取网站的网页截图；标注网页截图的类别；以标注的网页截图作为训练数据，训练卷积神经网络模型；利用训练好的卷积神经网络模型对待预...
基于卷积神经网络的赌博网站识别方法和系统

【技术保护点】
一种基于卷积神经网络的赌博网站识别方法，其特征在于，包括以下步骤：批量获取网站的网页截图；标注网页截图的类别；以标注的网页截图作为训练数据，训练卷积神经网络模型；利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别，判断其是否为赌博网站。

【技术特征摘要】
1.一种基于卷积神经网络的赌博网站识别方法，其特征在于，包括以下步骤：批量获取网站的网页截图；标注网页截图的类别；以标注的网页截图作为训练数据，训练卷积神经网络模型；利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别，判断其是否为赌博网站。2.如权利要求1所述的方法，其特征在于，对标注的网页截图进行预处理操作，以便于进行模型训练。3.如权利要求2所述的方法，其特征在于，所述预处理操作包括转灰度操作、缩放操作和/或白化操作。4.如权利要求1所述的方法，其特征在于，所述获取网站的网页截图包括使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染，从而快速的获取网站的网页截图。5.如权利要求1所述的方法，其特征在于，采用人工方式标注网站网页截图的类别。6.如权利要求1所述的方法，其特征在于，所述卷积神经网络模型包括：输入层、两层卷积...

【专利技术属性】
技术研发人员：陈立国，张跃冬，袁晓彤，耿光刚，延志伟，
申请(专利权)人：中国互联网络信息中心，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人