一种基于深度学习的自动化识别网站的方法和计算机设备技术

技术编号:25599167 阅读:18 留言:0更新日期:2020-09-11 23:56
本申请涉及一种基于深度学习的自动化识别网站的方法和计算机设备,其中,该基于深度学习的自动化识别网站的方法包括:相比于相关技术,本申请实施例提供的基于深度学习的自动化识别网站的方法,通过对网页进行爬取,并截图以生成爬取图片,识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率,其中,所述数据库中设有不合规内容特征,在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据,解决了相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题,降低不合规内容的误报率。

【技术实现步骤摘要】
一种基于深度学习的自动化识别网站的方法和计算机设备
本申请涉及计算机网络安全领域,特别是涉及一种基于深度学习的自动化识别网站的方法和计算机设备。
技术介绍
网站安全检测,也称网站安全评估、网站漏洞测试、Web(WorldWideWeb,即全球广域网)安全检测等,它是通过技术手段对网站进行漏洞扫描,检测网页是否存在漏洞、网页是否挂有木马程序、网页是否被篡改、是否有欺诈网站等,提醒网站管理员及时修复和加固,保障web网站的安全运行。在相关技术中,对于互联网安全问题的检测,大部分采用网站漏洞扫描产品,网站漏洞扫描产品是针对已经存在的页面进行漏洞测试,但由于图片、视频、发文、聊天等互动内容中充斥着各种不可控的风险,比如涉政、涉黄、涉赌、涉毒等不合规内容,因此只能检测web漏洞的网站漏洞扫描产品,无法准确检测出网站中的不合规内容,导致误报率高。目前针对相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种基于深度学习的自动化识别网站的方法和计算机设备,以至少解决相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题。第一方面,本申请实施例提供了一种基于深度学习的自动化识别网站的方法,所述方法包括:对网页进行爬取,并截图以生成爬取图片;识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率;其中,所述数据库中设有不合规内容特征;在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据。在其中一些实施例中,所述爬取网页,以获取所述网页的爬取内容之后,所述方法还包括:获取用户与服务器之间的网络流量,并对所述网络流量进行解析,以获取流量内容;识别所述流量内容,获取所述流量内容的流量特征,将所述流量特征与所述数据库进行匹配检测,并获取相似度比率;在所述相似度比率大于预设比率的情况下,生成用于指示所述流量内容不合规的流量告警数据。在其中一些实施例中,所述识别所述爬取图片,获取所述爬取图片的爬虫特征之前,所述方法还包括:识别所述爬取图片的爬取类型,在所述爬取类型与预设的检测类型匹配的情况下,识别所述爬取图片以获取所述爬虫特征。在其中一些实施例中,在所述相似度比率大于预设比率的情况下,所述方法还包括:将所述爬虫图片,以及与所述爬虫图片相对应的爬虫类型加载于所述网页告警数据中。在其中一些实施例中,所述爬取网页,并截取所述网页的图片,以获取所述网页的爬取图片之前,所述方法还包括:配置所述检测类型,其中所述检测类型包括以下至少之一:涉黄检测类型、涉赌检测类型、涉毒检测类型、涉政检测类型。第二方面,本申请实施例提供了一种基于深度学习的自动化识别网站的装置,所述装置包括:爬虫模块、检测模块和网页告警模块;所述爬虫模块,对网页进行爬取,并截图以生成爬取图片;所述检测模块,用于识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率;其中,所述数据库中设有不合规内容特征;所述告警模块,用于在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据。在其中一些实施例中,所述装置还包括:网络流量获取模块;所述网络流量获取模块,用于获取用户与服务器之间的网络流量,并对所述网络流量进行解析,以获取流量内容;所述检测模块还用于识别所述流量内容,获取所述流量内容的流量特征,将所述流量特征与所述数据库进行匹配检测,并获取相似度比率;所述告警模块还用于在所述相似度比率大于预设比率的情况下,生成用于指示所述流量内容不合规的流量告警数据。第三方面,本申请实施例提供了一种基于深度学习的自动化识别网站的方法,方法包括:获取用户与服务器之间的网络流量,并对网络流量进行解析,以获取流量内容;识别流量内容,获取流量内容的流量特征,将流量特征与数据库进行匹配检测,并获取相似度比率;其中,数据库中设有不合规内容特征;在相似度比率大于预设比率的情况下,生成用于指示流量内容不合规的流量告警数据。第四方面,本申请实施例提供了一种基于深度学习的自动化识别网站的系统,其特征在于,系统包括:分光器和中央处理器;分光器,用于获取用户和服务器之间的网络流量;中央处理器,用于对网络流量进行解析,以获取流量内容,并识别流量内容,获取流量内容的流量特征,将流量特征与数据库进行匹配检测,并获取相似度比率,且在相似度比率大于预设比率的情况下,生成用于指示流量内容不合规的流量告警数据;其中,数据库中设有不合规内容特征。第五方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于深度学习的自动化识别网站的方法。相比于相关技术,本申请实施例提供的一种基于深度学习的自动化识别网站的方法,通过对网页进行爬取,并截图以生成爬取图片,识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率,其中,所述数据库中设有不合规内容特征,在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据,解决了相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题,降低不合规内容的误报率。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图一;图2是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图二;图3是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图三;图4是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图四;图5是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图五;图6是根据本申请实施例的基于深度学习的自动化识别网站的装置的结构框图;图7是根据本申请实施例的基于深度学习的自动化识别网站的装置的另一结构框图;图8是根据本申请实施例的基于深度学习的自动化识别网站的另一方法的流程图;图9是根据本申请实施例的基于深度学习的自动化识别网站的系统的结构框图;图10是根据本申请实施例的计算机设备的硬件结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本本文档来自技高网...

【技术保护点】
1.一种基于深度学习的自动化识别网站的方法,其特征在于,所述方法包括:/n对网页进行爬取,并截图以生成爬取图片;/n识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率;其中,所述数据库中设有不合规内容特征;/n在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据。/n

【技术特征摘要】
1.一种基于深度学习的自动化识别网站的方法,其特征在于,所述方法包括:
对网页进行爬取,并截图以生成爬取图片;
识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率;其中,所述数据库中设有不合规内容特征;
在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据。


2.根据权利要求1所述的方法,其特征在于,所述爬取网页,以获取所述网页的爬取内容之后,所述方法还包括:
获取用户与服务器之间的网络流量,并对所述网络流量进行解析,以获取流量内容;
识别所述流量内容,获取所述流量内容的流量特征,将所述流量特征与所述数据库进行匹配检测,并获取相似度比率;
在所述相似度比率大于预设比率的情况下,生成用于指示所述流量内容不合规的流量告警数据。


3.根据权利要求1所述的方法,其特征在于,所述识别所述爬取图片,获取所述爬取图片的爬虫特征之前,所述方法还包括:
识别所述爬取图片的爬取类型,在所述爬取类型与预设的检测类型匹配的情况下,识别所述爬取图片以获取所述爬虫特征。


4.根据权利要求3所述的方法,其特征在于,在所述相似度比率大于预设比率的情况下,所述方法还包括:
将所述爬虫图片,以及与所述爬虫图片相对应的爬虫类型加载于所述网页告警数据中。


5.根据权利要求3所述的方法,其特征在于,所述爬取网页,并截取所述网页的图片,以获取所述网页的爬取图片之前,所述方法还包括:
配置所述检测类型,其中所述检测类型包括以下至少之一:涉黄检测类型、涉赌检测类型、涉毒检测类型、涉政检测类型。


6.一种基于深度学习的自动化识别网站的装置,其特征在于,所述装置包括:爬虫模块、检测模块和网页告警模块;
所述爬虫模块,用于根据爬虫算法对网页进行爬取,并截图以生成爬取图片;
所述检测模块,用于识别所述爬取图片,以获取所述爬...

【专利技术属性】
技术研发人员:柳进范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1