一种基于深度学习的自动化识别网站的方法和计算机设备技术

技术编号：25599167 阅读：18 留言：0更新日期：2020-09-11 23:56

本申请涉及一种基于深度学习的自动化识别网站的方法和计算机设备，其中，该基于深度学习的自动化识别网站的方法包括：相比于相关技术，本申请实施例提供的基于深度学习的自动化识别网站的方法，通过对网页进行爬取，并截图以生成爬取图片，识别所述爬取图片，以获取所述爬取图片的爬取特征，将所述爬取特征与预设的数据库进行匹配检测，以获取所述爬取图片的相似度比率，其中，所述数据库中设有不合规内容特征，在所述相似度比率大于预设比率的情况下，生成用于指示所述网页不合规的网页告警数据，解决了相关技术中通过网站漏洞扫描产品检测网站中的不合规内容，存在误报率高的问题，降低不合规内容的误报率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的自动化识别网站的方法和计算机设备
本申请涉及计算机网络安全领域，特别是涉及一种基于深度学习的自动化识别网站的方法和计算机设备。
技术介绍
网站安全检测，也称网站安全评估、网站漏洞测试、Web(WorldWideWeb，即全球广域网)安全检测等，它是通过技术手段对网站进行漏洞扫描，检测网页是否存在漏洞、网页是否挂有木马程序、网页是否被篡改、是否有欺诈网站等，提醒网站管理员及时修复和加固，保障web网站的安全运行。在相关技术中，对于互联网安全问题的检测，大部分采用网站漏洞扫描产品，网站漏洞扫描产品是针对已经存在的页面进行漏洞测试，但由于图片、视频、发文、聊天等互动内容中充斥着各种不可控的风险，比如涉政、涉黄、涉赌、涉毒等不合规内容，因此只能检测web漏洞的网站漏洞扫描产品，无法准确检测出网站中的不合规内容，导致误报率高。目前针对相关技术中通过网站漏洞扫描产品检测网站中的不合规内容，存在误报率高的问题，尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种基于深度学习的自动化识别网站的方法和计算机设备，以至少解决相关技术中通过网站漏洞扫描产品检测网站中的不合规内容，存在误报率高的问题。第一方面，本申请实施例提供了一种基于深度学习的自动化识别网站的方法，所述方法包括：对网页进行爬取，并截图以生成爬取图片；识别所述爬取图片，以获取所述爬取图片的爬取特征，将所述爬取特征与预设的数据库进行匹配检测，以获取所述爬取图片的相似度比率；其中，所述数据库...

【技术保护点】
1.一种基于深度学习的自动化识别网站的方法，其特征在于，所述方法包括：/n对网页进行爬取，并截图以生成爬取图片；/n识别所述爬取图片，以获取所述爬取图片的爬取特征，将所述爬取特征与预设的数据库进行匹配检测，以获取所述爬取图片的相似度比率；其中，所述数据库中设有不合规内容特征；/n在所述相似度比率大于预设比率的情况下，生成用于指示所述网页不合规的网页告警数据。/n

【技术特征摘要】
1.一种基于深度学习的自动化识别网站的方法，其特征在于，所述方法包括：
对网页进行爬取，并截图以生成爬取图片；
识别所述爬取图片，以获取所述爬取图片的爬取特征，将所述爬取特征与预设的数据库进行匹配检测，以获取所述爬取图片的相似度比率；其中，所述数据库中设有不合规内容特征；
在所述相似度比率大于预设比率的情况下，生成用于指示所述网页不合规的网页告警数据。

2.根据权利要求1所述的方法，其特征在于，所述爬取网页，以获取所述网页的爬取内容之后，所述方法还包括：
获取用户与服务器之间的网络流量，并对所述网络流量进行解析，以获取流量内容；
识别所述流量内容，获取所述流量内容的流量特征，将所述流量特征与所述数据库进行匹配检测，并获取相似度比率；
在所述相似度比率大于预设比率的情况下，生成用于指示所述流量内容不合规的流量告警数据。

3.根据权利要求1所述的方法，其特征在于，所述识别所述爬取图片，获取所述爬取图片的爬虫特征之前，所述方法还包括：
识别所述爬取图片的爬取类型，在所述爬取类型与预设的检测类型匹配的情况下，识别所述爬取图片以获取所述爬虫特征。

4.根据权利要求3所述的方法，其特征在于，在所述相似度比率大于预设比率的情况下，所述方法还包括：
将所述爬虫图片，以及与所述爬虫图片相对应的爬虫类型加载于所述网页告警数据中。

5.根据权利要求3所述的方法，其特征在于，所述爬取网页，并截取所述网页的图片，以获取所述网页的爬取图片之前，所述方法还包括：
配置所述检测类型，其中所述检测类型包括以下至少之一：涉黄检测类型、涉赌检测类型、涉毒检测类型、涉政检测类型。

6.一种基于深度学习的自动化识别网站的装置，其特征在于，所述装置包括：爬虫模块、检测模块和网页告警模块；
所述爬虫模块，用于根据爬虫算法对网页进行爬取，并截图以生成爬取图片；
所述检测模块，用于识别所述爬取图片，以获取所述爬...

【专利技术属性】
技术研发人员：柳进，范渊，
申请(专利权)人：杭州安恒信息技术股份有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人