The invention provides a method and a server for obtaining web page content data. The method comprises the following steps: setting and save the pre fetching strategy and cache strategy in the middle of the server, the intermediate server according to the pre fetching strategy initiative from the web server in advance to crawl web content data, and based on the caching strategy the corresponding web content data stored in the cache memory; when the intermediate server receives the browser client initiated web access request, the server will cache memory among the corresponding page content data stored in advance is transmitted to the client browser.
【技术实现步骤摘要】
本专利技术专利申请是申请日为2011年6月30日、申请号为201110181418.3、名称为:“网页内容数据获取方法及服务器”的中国专利技术专利申请的分案申请。
本专利技术涉及移动通信领域,具体地,涉及一种网页内容数据获取方法及服务器。
技术介绍
目前,当用户使用浏览器访问某个网站页面时,通常是由中间件服务器先检查缓存(memcache)存储器是否已保存了该网站页面的数据,如果缓存存储器没有保存该网站页面的数据,中间件服务器再向该网站网页服务器请求获取页面数据内容。由于中间件服务器向网站的网页服务器请求获取网页内容数据内容的速度比中间件服务器从缓存存储器中获取页面数据内容的速度慢,因而这种获取所需网页内容数据的过程比较耗时。尤其是,用户在访问一些大型门户网站或者国内排名前100的网站等常用网站时,中间件服务器需要频繁地从网页服务器拉取所需的页面数据,因而大大地降低了用户浏览网页的速度,使用户的上网体验不佳。因此,在用户浏览网页过程中,如何有效地减少中间件服务器需要频繁到网页服务器获取所需网页内容数据的客观限制,从而加快用户在浏览网页过程中获得所需页面内容的速度,是当前急需解决的问题。
技术实现思路
为了改善现有技术存在的上述问题,本专利技术提供一种网页内容数据获取方法及服务器,能够在用户浏览过程中减少服务器频繁到网页服务器获取所需网页内容数据的情况,显著提高用户浏览网页的速度,从而有效地避免了现有技术的上述缺陷。根据本专利技术的一个方面,提供一种网页内容数据获取方法,所述方法由服务器执行,所述方法包括:服务器根据预存的系统配置文件所生成的预抓取策略,从网页服 ...
【技术保护点】
一种网页内容数据获取方法,包括:在中间服务器里设置和保存预抓取策略和缓存策略,所述预抓取策略包括:要获取的网页内容的地址、需要从网页中提取的内容数据的信息,以及进行预抓取的时间间隔、预抓取的持续时间,所述缓存策略规定了需要缓存和禁止缓存的数据属性;中间服务器根据所述预抓取策略主动从网页服务器中预先抓取相应的网页内容数据,并且根据所述缓存策略将相应的网页内容数据存储在缓存存储器中;当中间服务器接收到浏览器客户端发起的网页访问请求时,中间服务器将缓存存储器中预先存储的相应网页内容数据传送到浏览器客户端。
【技术特征摘要】
1.一种网页内容数据获取方法,包括:在中间服务器里设置和保存预抓取策略和缓存策略,所述预抓取策略包括:要获取的网页内容的地址、需要从网页中提取的内容数据的信息,以及进行预抓取的时间间隔、预抓取的持续时间,所述缓存策略规定了需要缓存和禁止缓存的数据属性;中间服务器根据所述预抓取策略主动从网页服务器中预先抓取相应的网页内容数据,并且根据所述缓存策略将相应的网页内容数据存储在缓存存储器中;当中间服务器接收到浏览器客户端发起的网页访问请求时,中间服务器将缓存存储器中预先存储的相应网页内容数据传送到浏览器客户端。2.根据权利要求1所述的方法,其特征在于还包括:所述中间服务器定期检查所述网页服务器中的网页内容数据是否被更新,在检查到所述网页服务器中的网页内容数据被更新时,抓取更新的网页内容数据以对存储在缓存存储器中的该网页内容数据进行更新。3.根据权利要求1所述的方法,其特征在于还包括:在保存的预抓取策略发生更新时,根据更新内容从网页服务器中预先抓取相应的网页内容数据,并且根据所述缓存策略将相应的网页内容数据存储在缓存存储器中。4.根据权利要求1所述的方法,其特征在于在根据所述缓存策略将相应的网页内容数据存储在缓存存储器中的步骤中,当根据所述缓存策略得出所抓取的网页内容数据中的网页元素是禁止缓存时,在经过一个或多个预抓取的时间间隔后抓取一次或多次该网页内容数据,比较至少2次抓取的禁止缓存的网页元素的内容是否相同;如果比较结果为禁止缓存的网页元素内容相同,则将所述网页元素强制存储在所述缓存存储器中,否则,不存储所述网页元素。5.根据权利要求2所述的方法,其特征在于在所述中间服务器定期检查所述网页服务器中的网页内容数据是否被更新的步骤中,所述中间服务器定期地读取网页服务器中网页内容数据的索引列表,将该索引列表与其预先保存的网页内容数据的索引列表进行比较,判断二者是否匹配,如果不匹配,则判断出网页服务器中的网页内容数据被更新,如果匹配,则所述网页内容数据没...
【专利技术属性】
技术研发人员:梁捷,江蔚然,陈嘉彬,潘连铨,
申请(专利权)人:广州市动景计算机科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。