一种基于相似度计算的网页变更监测方法和系统技术方案

技术编号：15254888 阅读：378 留言：0更新日期：2017-05-02 22:08

本发明专利技术的一种基于相似度计算的网页变更监测方法和系统，使用网络爬虫技术将网页内容保存到本地，在设定的时间间隔再次获取网页内容，利用模糊哈希算法与本地保存的页面内容相似度进行比较。可以自定义网页内容属性，内容不会改变的网页内容，监测步骤较为简洁，监测效率高。对于内容可改变的网页内容，进一步进行差异分析，识别字符或者图片的篡改，可以第一时间准确识别网页内容是被篡改还是正常的更新，提高网页内容的安全性。

Method and system for monitoring web page change based on similarity calculation

The invention is based on a similarity calculation of \change monitoring method and system using the technology of web crawler of web content will be saved to the local, again access to web content at set time intervals were compared using fuzzy similarity hash algorithm and the page content stored locally. You can customize the content of the web page content, the content will not change the content of the page, the monitoring process is relatively simple, high monitoring efficiency. For the content of web content can be changed, further analyses the differences between the characters, recognition or image tampering, can be the first time the accurate identification of web content is tampered or normal update, improve the security of web content.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种网页信息监测技术，具体地说涉及一种基于相似度计算的网页变更监测方法和系统。
技术介绍
保证用户正常浏览网页的一项关键内容是防止网站侧发布的网页(页面)被黑客篡改。所谓篡改，区别于合法的网页内容修改(刷新)，是指网页内容的变化不符合网站管理员或者用户所请求网页的预期。随着互联网信息爆炸式增长，每一天互联网中的网页都面临着被篡改的风险。如不能及时发现网页被篡改将给网站和用户带来不可估量的损失。网页被黑客篡改的方式主要有：黑客可能攻破网站，直接对该发布的网页内容进行修改。现有技术中检测网页被篡改的方案为：：利用扫描器对网站进行周期性监测，具体为：安装扫面器软件，周期性获取访问被监测网页的URL(UniformResoureLocator，统一资源定位器)，按照某种算法设置基准页面，并将被监测网页的页面与基准页面相比较，得出被监测网页中被修改的页面元素占该网页所有页面元素的比例，并根据该比例与预先设置的比例阈值判断页面是否被修改，该比例小于比例阈值认为被监测网站未被篡改，否则认为被监测网页被篡改。或者，预先设置某些敏感词，判断被监测网页中包括此类敏感词时，则认为页面被黑客篡改。由于现有的网站动态网页技术很多，因此现有的技术方案很难准确识别网页是被篡改还是正常内容刷新，不可避免地存在误检和漏检。
技术实现思路
为此，本专利技术所要解决的技术问题在于现有技术中实时监测网页无法准确识别网页是被篡改还是正常的更新内容。为解决上述技术问题，本专利技术所采用的技术方案：一种基于相似度计算的网页变更监测方法，包含以下步骤：S1：将网络中的网页内容通过使用网络爬虫...

【技术保护点】
一种基于相似度计算的网页变更监测方法，其特征在于，包含以下步骤：S1：将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值；S2：判断所述网页内容属于第一网页类型还是属于第二网页类型，并作出相应标记，第一网页类型为网页内容不会发生变化的网页，第二网页类型为网页内容会发生变化的网页；S3：在设定的时间间隔后再次从网络中爬取所述网页内容，并计算此刻网页内容的模糊哈希值；S4：计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度，相似度的取值范围为0‑100；S5：判断所述网页内容所属网页类型，若所述网页内容属于第一网页内容，则进行步骤S6；若所述网页内容属于第二网页内容，则进行步骤S7；S6：判断相似度的取值是否为100，是，则进行步骤S61；否，则进行步骤S62；S61：结束所述网页内容的监测；S62:发出警告，结束所述网页内容的监测；S7：判断相似度的取值是否为100，是，则结束所述网页内容的监测；否，则进行步骤S71；S71：利用DIFF工具找出所述网页内容相比初始状态的差异；S72：判断差异是否由于图片变化引起，是，则进行步骤S8；否，则进...

【技术特征摘要】
1.一种基于相似度计算的网页变更监测方法，其特征在于，包含以下步骤：S1：将网络中的网页内容通过使用网络爬虫存储至本地存储设备,计算网页内容的模糊哈希值；S2：判断所述网页内容属于第一网页类型还是属于第二网页类型，并作出相应标记，第一网页类型为网页内容不会发生变化的网页，第二网页类型为网页内容会发生变化的网页；S3：在设定的时间间隔后再次从网络中爬取所述网页内容，并计算此刻网页内容的模糊哈希值；S4：计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度，相似度的取值范围为0-100；S5：判断所述网页内容所属网页类型，若所述网页内容属于第一网页内容，则进行步骤S6；若所述网页内容属于第二网页内容，则进行步骤S7；S6：判断相似度的取值是否为100，是，则进行步骤S61；否，则进行步骤S62；S61：结束所述网页内容的监测；S62:发出警告，结束所述网页内容的监测；S7：判断相似度的取值是否为100，是，则结束所述网页内容的监测；否，则进行步骤S71；S71：利用DIFF工具找出所述网页内容相比初始状态的差异；S72：判断差异是否由于图片变化引起，是，则进行步骤S8；否，则进行步骤S9；S8：将图片内容与恶意内容特征进行匹配，检测图片中是否有异常内容；是，则进行步骤S81;否，则进行步骤S82;S81：发出警告，结束所述网页内容的监测；S82：结束所述网页内容的监测；S9：与敏感词库进行匹配，若匹配到敏感词，则发出警告。2.根据权利要求1所述的一种基于相似度计算的网页变更监测方法，其特征在于，步骤S9中，还包含与木马特征库进行匹配，若匹配到木马特征，则发出警告。3.根据权利要求2所述的一种基于相似度计算的网页变更监测方法，其特征在于，所述步骤S8中调用图片识别算法对图片内容进行识别，将图片内容与恶意内容特征进行匹配，检测图片中是否有异常内容；是，则进行步骤S81;否则进行步骤S82。4.一种基于相似度计算的网页变更监测系统，其特征在于，包...

【专利技术属性】
技术研发人员：刘坤朋，郑杭，练军，
申请(专利权)人：福建六壬网安股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人