一种基于相似度计算的网页变更监测方法和系统技术方案

技术编号:15254888 阅读:378 留言:0更新日期:2017-05-02 22:08
本发明专利技术的一种基于相似度计算的网页变更监测方法和系统,使用网络爬虫技术将网页内容保存到本地,在设定的时间间隔再次获取网页内容,利用模糊哈希算法与本地保存的页面内容相似度进行比较。可以自定义网页内容属性,内容不会改变的网页内容,监测步骤较为简洁,监测效率高。对于内容可改变的网页内容,进一步进行差异分析,识别字符或者图片的篡改,可以第一时间准确识别网页内容是被篡改还是正常的更新,提高网页内容的安全性。

Method and system for monitoring web page change based on similarity calculation

The invention is based on a similarity calculation of \change monitoring method and system using the technology of web crawler of web content will be saved to the local, again access to web content at set time intervals were compared using fuzzy similarity hash algorithm and the page content stored locally. You can customize the content of the web page content, the content will not change the content of the page, the monitoring process is relatively simple, high monitoring efficiency. For the content of web content can be changed, further analyses the differences between the characters, recognition or image tampering, can be the first time the accurate identification of web content is tampered or normal update, improve the security of web content.

【技术实现步骤摘要】

本专利技术涉及一种网页信息监测技术,具体地说涉及一种基于相似度计算的网页变更监测方法和系统
技术介绍
保证用户正常浏览网页的一项关键内容是防止网站侧发布的网页(页面)被黑客篡改。所谓篡改,区别于合法的网页内容修改(刷新),是指网页内容的变化不符合网站管理员或者用户所请求网页的预期。随着互联网信息爆炸式增长,每一天互联网中的网页都面临着被篡改的风险。如不能及时发现网页被篡改将给网站和用户带来不可估量的损失。网页被黑客篡改的方式主要有:黑客可能攻破网站,直接对该发布的网页内容进行修改。现有技术中检测网页被篡改的方案为::利用扫描器对网站进行周期性监测,具体为:安装扫面器软件,周期性获取访问被监测网页的URL(UniformResoureLocator,统一资源定位器),按照某种算法设置基准页面,并将被监测网页的页面与基准页面相比较,得出被监测网页中被修改的页面元素占该网页所有页面元素的比例,并根据该比例与预先设置的比例阈值判断页面是否被修改,该比例小于比例阈值认为被监测网站未被篡改,否则认为被监测网页被篡改。或者,预先设置某些敏感词,判断被监测网页中包括此类敏感词时,则认为页面被黑客篡改。由于现有的网站动态网页技术很多,因此现有的技术方案很难准确识别网页是被篡改还是正常内容刷新,不可避免地存在误检和漏检。
技术实现思路
为此,本专利技术所要解决的技术问题在于现有技术中实时监测网页无法准确识别网页是被篡改还是正常的更新内容。为解决上述技术问题,本专利技术所采用的技术方案:一种基于相似度计算的网页变更监测方法,包含以下步骤:S1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备,计算网页内容的模糊哈希值;S2:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;S3:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;S4:计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度,相似度的取值范围为0-100;S5:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则进行步骤S6;若所述网页内容属于第二网页内容,则进行步骤S7;S6:判断相似度的取值是否为100,是,则进行步骤S61;否,则进行步骤S62;S61:结束所述网页内容的监测;S62:发出警告,结束所述网页内容的监测;S7:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则进行步骤S71;S71:利用DIFF工具找出所述网页内容相比初始状态的差异;S72:判断差异是否由于图片变化引起,是,则进行步骤S8;否,则进行步骤S9;S8:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否,则进行步骤S82;S81:发出警告,结束所述网页内容的监测;S82:结束所述网页内容的监测;S9:与敏感词库进行匹配,若匹配到敏感词,则发出警告。步骤S9中,还包含与木马特征库进行匹配,若匹配到木马特征,则发出警告。所述步骤S8中调用图片识别算法对图片内容进行识别,将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否则进行步骤S82。一种基于相似度计算的网页变更监测系统,包含以下模块:初始采集模块:将网络中的网页内容通过使用网络爬虫存储至本地存储设备,计算网页内容的模糊哈希值;判断模块:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;实时采集模块:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;计算模块:计算实时采集模块中获得的模糊哈希值与初始采集模块中获得的模糊哈希值的相似度,相似度的取值范围为0-100;网页判断模块:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则转入第一判断模块;若所述网页内容属于第二网页内容,则转入第二判断模块;第一判断模块:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则转入第一警告模块;第一警告模块:发出警告,结束所述网页内容的监测;第二判断模块:判断相似度的取值是否为100,是,则转入第一终止模块;否,则转入差异分析模块;第一终止模块:结束所述网页内容的监测;差异分析模块:利用DIFF工具找出所述网页内容相比初始状态的差异;第三判断模块:判断差异是否由于图片变化引起,是,则转入第一匹配模块;否,则准入第二匹配模块;第一匹配模块:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则转入第二警告模块;否,则转入第二终止模块;第二警告模块:发出警告,结束所述网页内容的监测;第二终止模块:结束所述网页内容的监测;第二匹配模块:与敏感词库进行匹配,若匹配到敏感词,则发出警告。所述第二匹配模块还包含与木马特征库进行匹配,若匹配到木马特征,则发出警告。第三判断模块中调用图片识别算法对图片内容进行识别,判断差异是否由于图片变化引起,是,则转入第一匹配模块;否,则准入第二匹配模块。本专利技术的上述技术方案相比现有技术具有以下优点。本专利技术的一种基于相似度计算的网页变更监测方法和系统,使用网络爬虫技术将网页内容保存到本地,在设定的时间间隔再次获取网页内容,利用模糊哈希算法与本地保存的页面内容相似度进行比较。可以自定义网页内容属性,内容不会改变的网页内容,监测步骤较为简洁,监测效率高。对于内容可改变的网页内容,进一步进行差异分析,识别字符或者图片的篡改,可以第一时间准确识别网页内容是被篡改还是正常的更新,提高网页内容的安全性。附图说明为了使本专利技术的内容更容易被清楚的理解,下面根据本专利技术的具体实施例并结合附图,对本专利技术作进一步详细的说明,其中,图1为本专利技术一种基于相似度计算的网页变更监测方法的流程图;图2为本专利技术一种基于相似度计算的网页变更监测系统的结构框图。图中附图标记表示为:1-初始采集模块;2-判断模块;3-实时采集模块;4-计算模块;5-网页判断模块;6-第一判断模块;61-第一警告模块;7-第二判断模块;71-第一终止模块;72-差异分析模块;8-第三判断模块;81-第一匹配模块;82-第二匹配模块;811-第二警告模块;812-第二终止模块。具体实施方式一种基于相似度计算的网页变更监测方法,如图1所示,包含以下步骤:S1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备,计算网页内容的模糊哈希值。模糊哈希值主要是利用模糊哈希算法,可以调用ssdeep工具。模糊哈希算法又叫基于内容分割的分片哈希算法(contexttriggeredpiecewisehashing,CTPH),主要用于文件的相似性比较。2006年,JesseKornblum提出CTPH,并给出一个名为spamsum的算法实例。随后,JasonSherman开发了ssdeep工具(http://ssdeep.sourceforge.net/)。该算法在本专利技术中可以用于恶意代码检测,也可以用于漏洞挖掘等。模糊哈希的主要原理是,使用一个弱哈希计算文件局部内容,在特定条件下对文本文档来自技高网...

【技术保护点】
一种基于相似度计算的网页变更监测方法,其特征在于,包含以下步骤:S1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值;S2:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;S3:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;S4:计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度,相似度的取值范围为0‑100;S5:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则进行步骤S6;若所述网页内容属于第二网页内容,则进行步骤S7;S6:判断相似度的取值是否为100,是,则进行步骤S61;否,则进行步骤S62;S61:结束所述网页内容的监测;S62:发出警告,结束所述网页内容的监测;S7:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则进行步骤S71;S71:利用DIFF工具找出所述网页内容相比初始状态的差异;S72:判断差异是否由于图片变化引起,是,则进行步骤S8;否,则进行步骤S9;S8:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否,则进行步骤S82;S81:发出警告,结束所述网页内容的监测;S82:结束所述网页内容的监测;S9:与敏感词库进行匹配,若匹配到敏感词,则发出警告。...

【技术特征摘要】
1.一种基于相似度计算的网页变更监测方法,其特征在于,包含以下步骤:S1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备,计算网页内容的模糊哈希值;S2:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;S3:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;S4:计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度,相似度的取值范围为0-100;S5:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则进行步骤S6;若所述网页内容属于第二网页内容,则进行步骤S7;S6:判断相似度的取值是否为100,是,则进行步骤S61;否,则进行步骤S62;S61:结束所述网页内容的监测;S62:发出警告,结束所述网页内容的监测;S7:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则进行步骤S71;S71:利用DIFF工具找出所述网页内容相比初始状态的差异;S72:判断差异是否由于图片变化引起,是,则进行步骤S8;否,则进行步骤S9;S8:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否,则进行步骤S82;S81:发出警告,结束所述网页内容的监测;S82:结束所述网页内容的监测;S9:与敏感词库进行匹配,若匹配到敏感词,则发出警告。2.根据权利要求1所述的一种基于相似度计算的网页变更监测方法,其特征在于,步骤S9中,还包含与木马特征库进行匹配,若匹配到木马特征,则发出警告。3.根据权利要求2所述的一种基于相似度计算的网页变更监测方法,其特征在于,所述步骤S8中调用图片识别算法对图片内容进行识别,将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否则进行步骤S82。4.一种基于相似度计算的网页变更监测系统,其特征在于,包...

【专利技术属性】
技术研发人员:刘坤朋郑杭练军
申请(专利权)人:福建六壬网安股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1