【技术实现步骤摘要】
网页内容安全实时监测方法
本专利技术涉及通信技术/计算机技术,具体涉及网页内容安全实时监测方法。
技术介绍
目前在网页安全内容实时监测领域的主流方式是在服务器端部署防篡改方案。面向Web服务器端的内容检测研究较为成熟,已经出现了不少实用系统。该方案需要在Web服务器端安装监测软件,该软件包含核心内嵌、外挂轮询、事件触发等技术。面向服务端的检测系统属于单机部署模式。其不仅部署复杂、应用成本高,而且降低网站性能。而在监控网页结构类型众多、管理又分散的网站时,由于网页数量巨大,并不适合通过现有技术实现对网页内容的实时监控。
技术实现思路
鉴于上述问题,本专利技术提出了克服上述问题或者至少部分地解决上述问题的网页内容安全实时监测方法。为此目的,第一方面,本文提供一种网页内容安全实时监测系统,包括任务调度模块、监控模块、分析引擎模块;任务调度模块、监控模块分别部署于分布式系统的一个第一节点上;所述任务调度模块用于将需要抓取的目标网址,以及预设的抓取时间或抓取频率分配给各分析引擎模块;所述监控模块用于监控分析引擎模块执行分析任务的状态和资源占用情况,以及任务状态和资源占用情况上报 ...
【技术保护点】
网页内容安全实时监测系统,其特征在于,包括任务调度模块、监控模块、分析引擎模块;任务调度模块、监控模块部署于分布式系统的一个第一节点上;所述任务调度模块用于将需要抓取的目标网址,以及预设的抓取时间或抓取频率分配给各分析引擎模块;所述监控模块用于监控分析引擎模块执行分析任务的状态和资源占用情况,以及任务状态和资源占用情况上报任务调度模块;多个分析引擎模块分别部署在不同的分布式系统的第二节点上;分析引擎模块用于抓取目标网页,获得网页文件,对网页文件进行安全性分析;第一节点连接第二节点。
【技术特征摘要】
1.网页内容安全实时监测系统,其特征在于,包括任务调度模块、监控模块、分析引擎模块;任务调度模块、监控模块部署于分布式系统的一个第一节点上;所述任务调度模块用于将需要抓取的目标网址,以及预设的抓取时间或抓取频率分配给各分析引擎模块;所述监控模块用于监控分析引擎模块执行分析任务的状态和资源占用情况,以及任务状态和资源占用情况上报任务调度模块;多个分析引擎模块分别部署在不同的分布式系统的第二节点上;分析引擎模块用于抓取目标网页,获得网页文件,对网页文件进行安全性分析;第一节点连接第二节点。2.根据权利要求1所述的系统,其特征在于,分析引擎模块还用于根据预设的抓取规则获得线索,根据线索提取第一网页文件中的子目标网页地址,根据线索获取第二网页文件。3.根据权利要求1所述的系统,其特征在于,分析引擎模块还用于对网页文件进行恶意代码分析后,还对网页文件进行暗链分析;分析引擎模块还用于去除网页文件中的标签注释文本后,分别计算获得的网页文件与对应的安全网页文件的simhash值,计算获得的网页文件的simhash值与安全网页文件之间的的simhash值之间的海明距离,根据海明距离判断网页相似度,若相似,则该获取的网页文件为安全网页;分析引擎模块还用于比较网页文件与对应的安全网页文件的网页编码、文件类型、数据长度是否一致,若不一致则该网页为存在安全风险的网页。4.根据权利要求1所述的系统,其特征在于,分析引擎模块还用于去除网页文件中的标签注释文本后,分别计算获得的网页文件与对应的安全网页文件的simhash值,计算获得的网页文件的simhash值与安全网页文件之间的的simhash值之间的海明距离,根据海明距离判断网页相似度,若相似,则该获取的网页文件为安全网页。5.根据权利要求1所述的系统,其特征在于,分析引擎模块还用于比较网页文件与对应的安全网页文件的网页编码、文件类型、数据长度是否一致,若不一致则该网页为存在安全风险的网页。6.根据权利要求1所述的系统,其特征在于,分析引擎模块还用于根据设置的敏感词构造DFA状态机;对网页文件进行分词,获得字符串;...
【专利技术属性】
技术研发人员:姜强,
申请(专利权)人:北京国舜科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。