一种基于WebKit浏览器引擎的动态页面数据采集方法技术

技术编号：6605442 阅读：726 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于WebKit浏览器引擎的动态页面数据采集方法，包括：向服务器端发送http请求，接收原始页面数据，构建DOM树，所述发送http请求，接收原始页面数据，解析js及构建DOM树由WebKit底层实现；针对不同的网站，维护相应的配置文件，配置文件中包含触发相应事件的js代码，以字符串的形式传递给WebKit提供的js执行接口，由WebKit根据事件相应，更新DOM树；调用WebKit的I/0接口，将DOM树转化成html格式，以字符串的形式输出。本发明专利技术技术方案通过配置文件的方式实现了可扩展性的需求，实现了浏览器和服务器之间的异步并行处理，减轻了服务器端的负担，增加了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机信息
，具体涉及到基于WebKit浏览器引擎的动态页面数据采集方法。
技术介绍
随着 Web2. 0 的兴起，AJAX (Asynchronous JavaScript and XML，异步 Javakript 和XML)技术风靡一时，客户端与服务器端异步交互的方式既减小了服务器端的压力，而且带来了更好的用户体验。然而，使用该技术产生的大量动态网页给网络数据获取造成了新的难题，传统的用于采集静态网页的Web数据采集工具如网络爬虫抓取的内容远少于页面呈现的内容，大量动态网页中的有用信息无法获取使得以网络数据为主要处理对象的工作无法顺利进行，严重影响了网络内容监控，网络数据挖掘等学科的发展。因此，如何改进传统的Web数据采集系统，使之支持动态页面解析，已经成为了当前信息采集技术的一个研究热点。互联网领域的专家学者们对此课题做了不少有益的研究尝试，提出了有建设性的思路和解决方案。当前动态页面采集的主要方法大体有两种一是利用开源浏览器接口(如Firefox)，以编写插件的形式对浏览器输出结果进行采集；二是利用现有的脚本解释引擎(如SpiderMonkey、Rhino等)根据信息采集的需要对相关 DOM(DocumentObject Model，文档对象模型)对象进行绑定，对输出结果进行采集。然而，目前的研究也存在一些问题一是现在的研究主要面向设计大规模网络爬虫爬取动态网页的通用方法，对于一些有针对性的定向的数据采集(如特定论坛或商业网站商品信息的采集)支持效果不够理想；二是大部分方案实现较为复杂，并不适用于小规模即时的数据采集需求...

【技术保护点】
１．一种基于ＷｅｂＫｉｔ浏览器引擎的动态页面数据采集方法，其特征在于，包括：向服务器端发送ｈｔｔｐ请求，接收原始页面数据，构建ＤＯＭ树，所述发送ｈｔｔｐ请求，接收原始页面数据，解析ｊｓ及构建ＤＯＭ树由ＷｅｂＫｉｔ底层实现；针对不同的网站，维护相应的配置文件，配置文件中包含触发相应事件的ｊｓ代码，以字符串的形式传递给ＷｅｂＫｉｔ提供的ｊｓ执行接口，由ＷｅｂＫｉｔ根据事件相应，更新ＤＯＭ树；调用ＷｅｂＫｉｔ的Ｉ／Ｏ接口，将ＤＯＭ树转化成ｈｔｍｌ格式，以字符串的形式输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：李飞燕，陈曦，杨艾琳，
申请(专利权)人：中山大学，
类型：发明
国别省市：81

全部详细技术资料下载我是这个专利的主人