对获取的网页数据进行更新的系统及方法技术方案

技术编号:11155756 阅读:61 留言:0更新日期:2015-03-18 12:01
本发明专利技术公开了一种对获取的网页数据进行更新的系统及方法,方法包括:S1、利用网络爬虫从网页中抓取目标数据;S2、将目标数据打包成目标压缩文件,并对目标压缩文件添加MD5标签;S3、判断数据库服务器中是否存储网页数据及压缩文件,若是,则执行步骤S4,若否,则执行步骤S7;S4、判断网页数据的压缩文件与目标压缩文件的MD5值是否相同,若是,则执行步骤S5,若否,则执行步骤S6;S5、删除目标数据及目标压缩文件;S6、将网页数据及压缩文件分别更新为目标数据及目标压缩文件;S7、将目标数据及目标压缩文件存储至数据库服务器中。本发明专利技术能够判断出网页数据的更新,实现了对获取到的网页数据的及时更新。

【技术实现步骤摘要】

本专利技术涉及一种对获取的网页数据进行更新的系统及方法,特别是涉及一种能够及时检测出获取的网页数据的更新并进行相应更新处理的系统以及一种利用所述系统实现的对获取的网页数据进行更新的方法。
技术介绍
在现阶段的网络技术飞速发展的情况下,大数据时代已经来临,如何快速有效地拉取网站的数据信息成为亟待解决的问题。现在很多的网站出于信息保护的目的,在对网页数据进行更新时,一般不会在更新数据中提供时间戳这种标识时间的信息数据。因此,现有技术中在抓取到网页数据后,基本无法判断网页数据的更新时间,一旦无法判断更新时间,就无法判断抓取到的网页数据中哪些是更新过的数据,哪些是没有更新过的数据,从而导致无法第一时间获取到网页中最新更新的数据。以在线旅游搜索平台为例,由于无法判断目标网站(例如各种酒店及订票网站)的数据更新,导致很难在第一时间获取到最新更新的机票、酒店及火车票等资源信息,而数据更新的实时性不高的话,会使得用户在进行相关信息查询时精准度变低,严重影响到用户的使用体验。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中在线旅游搜索平台等无法及时判断网站的数据更新,导致很难在第一时间获取到最新更新的机票、酒店及火车票等资源信息,使得用户在进行相关信息查询时精准度变低,严重影响到用户的使用体验的缺陷,提供一种能够及时检测出获取的网页数据的更新并进行相应更新处理的系统以及一种利用所述系统实现的对获取的网页数据进行更新的方法。本专利技术是通过下述技术方案来解决上述技术问题的:本专利技术提供了一种对获取的网页数据进行更新的方法,其特点在于,所述方法包括以下步骤:S1、利用网络爬虫从一网页中抓取带有所述网页ID(身份识别号码)的目标数据;S2、将所述目标数据打包成一目标压缩文件,并对所述目标压缩文件添加MD5(消息摘要算法第五版,计算机领域使用的一种散列函数)标签;S3、判断一数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件,若是,则执行步骤S4,若否,则执行步骤S7;S4、判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同,若是,则执行步骤S5,若否,则执行步骤S6;S5、删除所述目标数据及所述目标压缩文件,然后结束流程;S6、将所述网页数据及所述网页数据的压缩文件分别更新为所述目标数据及所述目标压缩文件,然后结束流程;S7、将所述目标数据及所述目标压缩文件存储至所述数据库服务器中。在步骤S1中通过设定所述网页的网址,所述网络爬虫的递归算法以及网页数据的定位信息后,所述网络爬虫就可以快速抓取所需要的网页数据,即所述目标数据,而所有的目标数据都是在具有独有的唯一的ID的网页中的数据。此处的网页ID并不是指网页的URL(统一资源定位符)地址中的数字,而是表明了所需数据的唯一身份标识,该网页ID与网页中的数据是对应的,并且它能够表征与之相对应的一个独一无二的网页,而不同的网页也会具有不同的网页ID。在考虑到将抓取到的所述目标数据存储至所述数据库服务器的时候,首先会在步骤S3中判断所述数据库服务器中是否已经存储有同样来自所述网页的网页数据,即判断所述数据库服务器中是否存储带有所述网页ID的网页数据以及与所述网页数据对应的压缩文件。若是,则说明所述数据库服务器中已经存储有所述网页的网页数据,此时尚不能确定抓取到的所述目标数据是否为所述网页最新更新的数据,需要进行后续判断;若否,则说明所述数据库服务器中尚未存储所述网页的网页数据,此时对所述数据库服务器来说,所述目标数据为最新的网页数据,因此执行步骤S7对所述数据库服务器中存储的网页数据进行更新。而在判断出所述数据库服务器中已经存储有所述网页的网页数据及所述网页数据的压缩文件时,会执行步骤S4来继续判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同;若相同,则说明所述网页数据没有被更新过,即所述数据库服务器中存储的网页数据是最新的,此时执行步骤S5;若不相同,则说明步骤S1中抓取到的所述目标数据是最新的,此时执行步骤S6对所述数据库中存储的网页数据进行更新。这样,通过本专利技术的方法就能够保证所述数据库服务器中存储的网页数据一直是最新,实现了对获取到的网页数据的及时更新,同时减少了所述数据库服务器中的数据冗余。并且,本专利技术能够极大地提高所述数据库服务器中存储的网页数据的实时性,特别是对于在线旅游搜索平台等,能够在第一时间获取到最新更新的机票、酒店及火车票等资源信息,使得用户在进行相关信息查询时精准度大大提高,方便了用户的使用,提升了用户的使用体验,也极大地提高了在线旅游搜索平台等对网页数据处理的灵活性和实时性。较佳地,步骤S1中的所述网络爬虫为聚焦爬虫,所述聚焦爬虫在抓取时通过设置过滤算法过滤所述网页中与所述目标数据无关的链接。区别于普通的网络爬虫,步骤S2中采用的聚焦爬虫能够过滤掉无关链接,只保留有用链接并存入等待队列中,从而提高了抓取网页数据的速度和效率,进而也提高了整个方法流程的速度和效率。较佳地,步骤S1中还将所述目标数据按照数据类型划分为多个字段,并将所述多个字段分类为静态信息数据和动态信息数据;步骤S2中的所述目标压缩文件包括分别带有MD5标签的所述静态信息数据的压缩文件及所述动态信息数据的压缩文件。对于步骤S1中抓取到的所述目标数据,表征的信息不同使得数据的类型也会有差别,因此在步骤S1中还可以按照网页数据表征信息的不同将所述目标数据划分为多个字段。所有字段的数据大体都可以分为静态信息数据和动态信息数据,其中静态信息数据是指事物的基本特征信息数据,这些数据随着时间的变化非常缓慢或者基本不会变化,例如火车的车次、起始站、终点站等。而动态信息数据则是指随着时间的变化而比较容易发生变化的数据,例如火车票的数量、硬座、卧铺的余量等。较佳地,每隔一时间段执行一次所述方法的流程。本专利技术的目的在于还提供了一种对获取的网页数据进行更新的系统,其特点在于,所述系统包括一数据抓取模块、一文件压缩模块、一第一判断模块、一第二判断模块以及一数据更新模块;所述数据抓取模块用于利用网络爬虫从一网页中抓取带有所述网页ID的目标数据;所述文件压缩模块用于将所述目标数据打包成一目标压缩文件,并对所述目标压缩文件添加MD5标签;所述第一判断模块用于判断一数据库服务器中是否存储本文档来自技高网...
对获取的网页数据进行更新的系统及方法

【技术保护点】
一种对获取的网页数据进行更新的方法,其特征在于,所述方法包括以下步骤:S1、利用网络爬虫从一网页中抓取带有所述网页ID的目标数据;S2、将所述目标数据打包成一目标压缩文件,并对所述目标压缩文件添加MD5标签;S3、判断一数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件,若是,则执行步骤S4,若否,则执行步骤S7;S4、判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同,若是,则执行步骤S5,若否,则执行步骤S6;S5、删除所述目标数据及所述目标压缩文件,然后结束流程;S6、将所述网页数据及所述网页数据的压缩文件分别更新为所述目标数据及所述目标压缩文件,然后结束流程;S7、将所述目标数据及所述目标压缩文件存储至所述数据库服务器中。

【技术特征摘要】
1.一种对获取的网页数据进行更新的方法,其特征在于,所述方法包
括以下步骤:
S1、利用网络爬虫从一网页中抓取带有所述网页ID的目标数据;
S2、将所述目标数据打包成一目标压缩文件,并对所述目标压缩文件添
加MD5标签;
S3、判断一数据库服务器中是否存储带有所述网页ID的网页数据及所
述网页数据的压缩文件,若是,则执行步骤S4,若否,则执行步骤S7;
S4、判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的
MD5值是否相同,若是,则执行步骤S5,若否,则执行步骤S6;
S5、删除所述目标数据及所述目标压缩文件,然后结束流程;
S6、将所述网页数据及所述网页数据的压缩文件分别更新为所述目标数
据及所述目标压缩文件,然后结束流程;
S7、将所述目标数据及所述目标压缩文件存储至所述数据库服务器中。
2.如权利要求1所述的方法,其特征在于,步骤S1中的所述网络爬虫
为聚焦爬虫,所述聚焦爬虫在抓取时通过设置过滤算法过滤所述网页中与所
述目标数据无关的链接。
3.如权利要求2所述的方法,其特征在于,步骤S1中还将所述目标数
据按照数据类型划分为多个字段,并将所述多个字段分类为静态信息数据和
动态信息数据;
步骤S2中的所述目标压缩文件包括分别带有MD5标签的所述静态信息
数据的压缩文件及所述动态信息数据的压缩文件。
4.如权利要求1-3中任意一项所述的方法,其特征在于,每隔一时间
段执行一次所述方法的流程。
5.一种对获...

【专利技术属性】
技术研发人员:叶亚明
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1