网页内容数据获取方法及服务器技术

技术编号:15254891 阅读:75 留言:0更新日期:2017-05-02 22:08
本发明专利技术提供了一种网页内容数据获取方法及服务器。所述方法包括:在中间服务器里设置和保存预抓取策略和缓存策略,中间服务器根据所述预抓取策略主动从网页服务器中预先抓取相应的网页内容数据,并且根据所述缓存策略将相应的网页内容数据存储在缓存存储器中;当中间服务器接收到浏览器客户端发起的网页访问请求时,中间服务器将缓存存储器中预先存储的相应网页内容数据传送到浏览器客户端。

Web content data acquisition method and server

The invention provides a method and a server for obtaining web page content data. The method comprises the following steps: setting and save the pre fetching strategy and cache strategy in the middle of the server, the intermediate server according to the pre fetching strategy initiative from the web server in advance to crawl web content data, and based on the caching strategy the corresponding web content data stored in the cache memory; when the intermediate server receives the browser client initiated web access request, the server will cache memory among the corresponding page content data stored in advance is transmitted to the client browser.

【技术实现步骤摘要】
本专利技术专利申请是申请日为2011年6月30日、申请号为201110181418.3、名称为:“网页内容数据获取方法及服务器”的中国专利技术专利申请的分案申请。
本专利技术涉及移动通信领域,具体地,涉及一种网页内容数据获取方法及服务器。
技术介绍
目前,当用户使用浏览器访问某个网站页面时,通常是由中间件服务器先检查缓存(memcache)存储器是否已保存了该网站页面的数据,如果缓存存储器没有保存该网站页面的数据,中间件服务器再向该网站网页服务器请求获取页面数据内容。由于中间件服务器向网站的网页服务器请求获取网页内容数据内容的速度比中间件服务器从缓存存储器中获取页面数据内容的速度慢,因而这种获取所需网页内容数据的过程比较耗时。尤其是,用户在访问一些大型门户网站或者国内排名前100的网站等常用网站时,中间件服务器需要频繁地从网页服务器拉取所需的页面数据,因而大大地降低了用户浏览网页的速度,使用户的上网体验不佳。因此,在用户浏览网页过程中,如何有效地减少中间件服务器需要频繁到网页服务器获取所需网页内容数据的客观限制,从而加快用户在浏览网页过程中获得所需页面内容的速度,是当前急需解决的问题。
技术实现思路
为了改善现有技术存在的上述问题,本专利技术提供一种网页内容数据获取方法及服务器,能够在用户浏览过程中减少服务器频繁到网页服务器获取所需网页内容数据的情况,显著提高用户浏览网页的速度,从而有效地避免了现有技术的上述缺陷。根据本专利技术的一个方面,提供一种网页内容数据获取方法,所述方法由服务器执行,所述方法包括:服务器根据预存的系统配置文件所生成的预抓取策略,从网页服务器中获取网页内容数据,并缓存于缓存存储器中;其中,当接收到浏览器客户端发起的网页访问请求时,服务器将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。优选地,在获取并将网页内容数据缓存在缓存存储器中之后,所述方法还包括:确定所述缓存存储器中存储的网页内容数据是否需要更新,并且在确定出需要更新时,从所述网页服务器获取所述被更新的网页内容数据;利用所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。优选地,确定所述缓存存储器中存储的网页内容数据是否需要更新包括:根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新,在检查到所述网页服务器中的网页内容数据被更新时,确定所述缓存存储器中存储的网页内容数据需要更新。优选地,确定所述缓存存储器中存储的网页内容数据是否需要更新包括:根据所述缓存存储器中存储的网页内容数据的页面有效性,确定所述缓存存储器中存储的网页内容数据是否需要更新。优选地,所述预抓取策略基于系统配置文件的更新来更新。优选地,在缓存所获取的网页内容数据时,还包括:判断所获取的网页内容数据中的网页元素是否为无缓存策略元素;在所获取的网页内容数据中的网页元素是无缓存策略元素时,对所述网页元素进行预定次数的获取;如果所述预定次数获取所获取的网页元素内容相同,则将所述网页元素强制存储在所述缓存存储器中,否则,不存储所述网页元素。优选地,当无法根据所述预抓取策略从所述网页服务器抓取要获取的网页内容数据中的网页元素时,调整所述预抓取策略;根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取;如果获取次数超出所述预定次数后仍无法获取,则利用特定标识替换该要获取的网页元素的内容并且将该特定标识作为该要获取的网页元素存储到缓存存储器中。优选地,调整所述预抓取策略包括延长抓取等待时间。优选地,所述缓存存储器位于所述服务器中或者位于另一服务器中。根据本专利技术的另一个方面,提供一种用于网页内容数据获取的服务器,包括:预抓取策略生成模块,用于基于在所述服务器中存储的系统配置文件,生成预抓取策略;网页内容获取模块,用于根据所生成的预抓取策略,从网页服务器预先获取要抓取的网页内容数据;网页内容存储模块,用于将所获取的网页内容数据存储在缓存存储器中;以及发送模块,用于在接收到浏览器客户端发起的网页访问请求后,将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。优选地,所述服务器还包括所述确定模块,用于确定所述缓存存储器中存储的网页内容数据是否需要更新,在所述确定模块确定需要更新时,所述网页内容获取模块从所述网页服务器获取所述被更新的网页内容数据,并且所述服务器还包括网页内容更新模块,用于利用所述网页内容获取模块所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。优选地,所述确定模块还包括:检查模块,用于根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新,其中,在所述检查模块检查到所述网页服务器中的网页内容数据被更新时,所述确定模块确定所述缓存存储器中存储的网页内容数据需要更新。优选地,所述确定模块还包括判断模块,用于判断所述缓存存储器中存储的网页内容数据的页面有效性,其中,在所述判断模块判断出所述缓存存储器中存储的网页内容数据无效时,所述确定模块确定所述缓存存储器中存储的网页内容数据需要更新。优选地,所述服务器还包括预抓取策略更新模块,用于根据系统配置文件的更新来更新预抓取策略。优选地,所述网页内容存储模块还包括:无缓存策略网页元素判断模块,用于判断所获取的网页内容中的网页元素是否是无缓存策略网页元素;以及强制存储模块,用于将所获取的网页元素强制存储在缓存存储器中,其中,当所述要获取的网页内容数据中的网页元素为无缓存策略元素时,所述网页内容获取模块对所述网页元素进行预定次数的获取,在所述预定次数获取所获取的网页元素内容相同时,所述强制存储模块将所述网页元素强制存储在所述缓存存储器中,否则,所述网页内容存储模块不存储所述网页元素。优选地,所述网页内容获取模块还包括预抓取策略调整模块,用于当无法根据所述预抓取策略从所述网页服务器获取要抓取的网页内容数据中的网页元素时,调整所述预抓取策略,以及替换模块,用于利用特定标识来替换要获取的网页元素的内容,其中,所述网页内容获取模块根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取,在所述网页内容获取模块的获取次数超出所述预定次数后仍无法获取时,所述替换模块利用特定标识来替换要获取的网页元素的内容,所述网页内容存储模块将该特定标识作为该要获取的网页元素存储到缓存存储器中。优选地,所述缓存存储器位于所述服务器中。优选地,所述缓存存储器位于与所述服务器分离的另一服务器中,其中,在接收到浏览器客户端发起的网页访问请求时,所述网页内容数据获取模块还用于从所述缓存存储器中获取所缓存的网页内容数据,并且所述发送模块将从所述缓存存储器中获取的网页内容数据发送给浏览器客户端。利用本专利技术的网页内容数据获取方法及服务器,通过在用户访问网页之前主动预抓取和缓存网页内容数据,可以预先把常用网站的网页内容数据存储到缓存存储器中,因此在用户浏览网页时,减少了中间件服务器直接向该目标网页的网站网页服务器请求获取网页内容数据的频率,因而由于服务器从缓存存储器中读取网页内容数据的速度比从目标网页的网站网页服务器读取的速度快,显著缩短了用户访问网页的请求时间,由此能够在用户浏览网页时带来更好的上网体验。附图说明通过参考以下结合附图的说明及权利要求书的内容,本专利技术的其它目的及结本文档来自技高网...

【技术保护点】
一种网页内容数据获取方法,包括:在中间服务器里设置和保存预抓取策略和缓存策略,所述预抓取策略包括:要获取的网页内容的地址、需要从网页中提取的内容数据的信息,以及进行预抓取的时间间隔、预抓取的持续时间,所述缓存策略规定了需要缓存和禁止缓存的数据属性;中间服务器根据所述预抓取策略主动从网页服务器中预先抓取相应的网页内容数据,并且根据所述缓存策略将相应的网页内容数据存储在缓存存储器中;当中间服务器接收到浏览器客户端发起的网页访问请求时,中间服务器将缓存存储器中预先存储的相应网页内容数据传送到浏览器客户端。

【技术特征摘要】
1.一种网页内容数据获取方法,包括:在中间服务器里设置和保存预抓取策略和缓存策略,所述预抓取策略包括:要获取的网页内容的地址、需要从网页中提取的内容数据的信息,以及进行预抓取的时间间隔、预抓取的持续时间,所述缓存策略规定了需要缓存和禁止缓存的数据属性;中间服务器根据所述预抓取策略主动从网页服务器中预先抓取相应的网页内容数据,并且根据所述缓存策略将相应的网页内容数据存储在缓存存储器中;当中间服务器接收到浏览器客户端发起的网页访问请求时,中间服务器将缓存存储器中预先存储的相应网页内容数据传送到浏览器客户端。2.根据权利要求1所述的方法,其特征在于还包括:所述中间服务器定期检查所述网页服务器中的网页内容数据是否被更新,在检查到所述网页服务器中的网页内容数据被更新时,抓取更新的网页内容数据以对存储在缓存存储器中的该网页内容数据进行更新。3.根据权利要求1所述的方法,其特征在于还包括:在保存的预抓取策略发生更新时,根据更新内容从网页服务器中预先抓取相应的网页内容数据,并且根据所述缓存策略将相应的网页内容数据存储在缓存存储器中。4.根据权利要求1所述的方法,其特征在于在根据所述缓存策略将相应的网页内容数据存储在缓存存储器中的步骤中,当根据所述缓存策略得出所抓取的网页内容数据中的网页元素是禁止缓存时,在经过一个或多个预抓取的时间间隔后抓取一次或多次该网页内容数据,比较至少2次抓取的禁止缓存的网页元素的内容是否相同;如果比较结果为禁止缓存的网页元素内容相同,则将所述网页元素强制存储在所述缓存存储器中,否则,不存储所述网页元素。5.根据权利要求2所述的方法,其特征在于在所述中间服务器定期检查所述网页服务器中的网页内容数据是否被更新的步骤中,所述中间服务器定期地读取网页服务器中网页内容数据的索引列表,将该索引列表与其预先保存的网页内容数据的索引列表进行比较,判断二者是否匹配,如果不匹配,则判断出网页服务器中的网页内容数据被更新,如果匹配,则所述网页内容数据没...

【专利技术属性】
技术研发人员:梁捷江蔚然陈嘉彬潘连铨
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1