一种动态网页的采集方法及装置制造方法及图纸

技术编号:4906069 阅读:240 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种动态网页的采集方法及装置,其中,该方法包括:在客户端侧预先设置模拟用户行为功能,客户端侧和提供动态网页信息的服务器建立链接;客户端侧通过预先设置的模拟用户行为功能下载动态网页信息;客户端侧通过设置的模拟用户行为功能对下载的动态网页信息中的表项解析、填写并发送给服务器;客户端侧从该服务器中得到的链接地址采集动态网页。本发明专利技术提供的方法及装置能够采集动态网页。

【技术实现步骤摘要】

本专利技术涉及互联网技术,特别涉及一种动态网页的采集方法及装置
技术介绍
随着互联网技术的发展,用户可以通过互联网获取各种各样的信息。当要从互联 网获取网页时,作为搜索引擎的重要组成部分,采集模块负责从互联网上获取网页数据。目前,网页分为静态网页和动态网页,其中,静态网页指的是预先编译好存储在服 务器上,服务器中没有针对该网页的数据库,该网页不含程序和不可交互,直接通过链接地 址链接到该预先编译的静态网页所在服务器上采集即可;而动态网页是在服务器上设置针 对该网页的数据库和程序,用户需要通过和服务器的交互,对网页内容进行采集及修改。采集静态网页的装置如图1所示,包括采集模块、网页解析模块、及索引模块。具体地说,采集模块,用于根据预先给定的链接地址,与提供要采集的静态网页信 息的服务器并建立链接,下载该服务器上的超文本链接标识语言源文件后发送给解析模 块,该文件用于描述静态网页;网页解析模块,用于对该服务器上的超文本链接标识语言源文件进行解析,获取 网页的正文数据,发送给索引模块;同时获取网页内部包含的进一步要下载的静态网页的 多个链接后,按照预先设定的规则进行查重、筛选及排序后,形成待采集链接库提供给采集 模块;索引模块,用于对网页解析模块输出的网页正文建立索引,供搜索引擎检索使用。在这个过程中,采集每一个静态网页,都需要和具有该静态网页的服务器之间建 立通信,从该服务器上获取到该静态网页。上述方法仅针对静态网页的采集,而无法采集动态网页。但是,目前互联网上的动 态网页占很大比重,尤其是web2.0的出现,给动态网页的采集带来了很大挑战。
技术实现思路
有鉴于此,本专利技术提供一种动态网页的采集方法,该方法能够采集动态网页。本专利技术还提供一种动态网页的采集装置,该装置能够采集动态网页。为达到上述目的,本专利技术实施例的技术方案具体是这样实现的一种动态网页的采集方法,在客户端侧预先设置模拟用户行为功能,该方法还包 括客户端侧和提供动态网页信息的服务器建立链接;客户端侧通过预先设置的模拟用户行为功能下载动态网页信息;客户端侧通过设置的模拟用户行为功能对下载的动态网页信息中的表项解析、填 写并发送给服务器;客户端侧从该服务器中得到的链接地址采集动态网页。所述在客户端侧预先设置模拟用户行为功能为在客户端侧预先设置具有配置文件的动态网页采集器。所述采集器采用HTMLUNIT工具、JUnit工具或Selenium工具实现。所述动态网页为论坛类的动态网页时,所述配置文件包括获取动态网页信息的链 接地址、动态网页类别及表项内容,其中,所述客户端侧和提供动态网页信息的服务器建立链接是根据配置文件中的获取 动态网页信息的链接地址建立的;所述对下载的动态网页信息中的表项填写是根据配置文件中的表项内容填写的。所述动态网页为检索类的动态网页时,所述配置文件包括获取动态网页信息的链 接地址、动态网页类别及动态网页中的内容路径,其中,所述客户端侧和提供动态网页信息的服务器建立链接是根据配置文件中的获取 动态网页信息的链接地址建立的;所述对下载的动态网页信息中的表项填写是根据配置文件中的动态网页中的内 容路径找到对应的内容填写的。所述内容为商品类别,所述采集到动态网页为所述各个类别商品的分页。所述客户端侧从该服务器中得到的链接地址采集动态网页是通过静态网页的采 集方法进行的。一种动态网页的采集装置,设置模块、交互模块及采集模块,其中,设置模块,用于设置模拟用户行为功能;交互模块,用于和提供动态网页信息的服务器建立链接,根据设置模块设置的模 拟用户行为功能下载动态网页信息,对下载的动态网页信息中的表项解析、填写并发送给 服务器;从服务器中得到采集动态网页的链接地址,发送给采集模块; 采集模块,用于根据从交互模块得到的链接地址采集动态网页。所述采集模块还包括第一采集模块,用于根据从交互模块得到的链接地址通过静 态网页的采集方法采集动态网页。所述设置模块还包括第一设置模块,用于设置具有配置文件的动态网页采集器作 为所设置的模拟用户行为功能。由上述技术方案可见,本专利技术在客户端侧预先设置了模拟用户行为功能,在采集 动态网页时,首先和提供动态网页信息的服务器建立链接,通过设置的模拟用户行为功能 下载动态网页信息,对下载的动态网页信息中的表项解析、填写并发送给服务器后,按照静 态网页的采集方法采集到动态网页。因此,本专利技术提供的方法及装置可以采集动态网页。附图说明图1为现有技术采集静态网页的装置示意图;图2为本专利技术提供的采集动态网页的方法流程图;图3为本专利技术提供的采集动态网页的装置示意图;图4为本专利技术提供的采集动态网页的方法实施例流程图。具体实施例方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本专利技术作进一步详细说明。现有技术中,无法按照静态网页的采集过程采集动态网页的原因为动态网页的 性质和静态网页的性质不同。动态网页在服务器上并没有以网页的形式存储,而是以数据 库和程序进行设置,所以用户在从服务器上采集动态网页时,在和该服务器建立链接之后, 需要和该服务器进行交互,比如进行该动态网页信息的表项填写、选择或确认后发送给该 服务器处理,然后该服务器才会根据交互的结果,提供符合用户要求的动态网页给用户。因 此,采集动态网页的整个过程都需要用户的参与,而不像静态网页的采集那样,直接通过链 接地址链接到提供该静态网页的服务器上即可。另外,对于一个动态网页,不仅可以由一个服务器提供所有的内容,也可以由多个 服务器提供不同的内容,比如该动态网页中具有分页时,这些分页是由不同的服务器提供。 这时在采集一个动态网页时,就需要首先和提供要采集的动态网页信息的服务器建立链接 后,和该服务器进行交互,发送要获取动态网页内容信息给该服务器,由该服务器确认对应 要获取动态网页内容的链接地址并提供给用户,用户根据链接地址采集到动态网页中的所 有内容后,整合得到一个完整的动态网页。因此,为了能够采集到动态网页,本专利技术在用户使用的客户端侧预先设置了模拟 用户行为功能,在采集动态网页时,首先和提供动态网页信息的服务器建立链接,通过设置 的模拟用户行为功能下载动态网页信息,对下载的动态网页信息中的表项解析、填写并发 送给服务器后,按照静态网页的采集方法采集到动态网页。这样,整个采集动态网页需要的 交互过程都由客户端侧设置的模拟用户行为功能完成,不需要用户参与,使得采集动态网 页的过程简单。在客户端侧预先设置的模拟用户行为功能,实际上就是在客户端侧运行动态网页 的采集器,该采集器根据设置的程序能够从服务器上采集指定的动态网页信息,并按照设 置的配置文件和设置的程序对动态网页信息进行填写和解析后,提交给服务器进行处理后 获取到动态网页中内容的链接地址,最后该采集器根据获取到的动态网页中内容的链接地 址通过静态网页的采集方法从服务器采集动态网页。该动态网页的采集器可以采用超文本 链接标示语言单元(HTMLUNIT)工具、J单元(JUnit)工具或命令列表(Selenium)工具等 实现。其中,HTMLUNIT工具、JUnit工具或Selenium工具等都是测试工具,进行单元测试。图2为本专利技术提供的采集动态网页的方法流程图,在客户端侧设置模拟用户行为 功能,其本文档来自技高网...

【技术保护点】
一种动态网页的采集方法,其特征在于,在客户端侧设置模拟用户行为功能,该方法还包括:客户端侧和提供动态网页信息的服务器建立链接;客户端侧通过设置的模拟用户行为功能下载动态网页信息;客户端侧通过设置的模拟用户行为功能对下载的动态网页信息中的表项解析、填写并发送给服务器;客户端侧从该服务器中得到的链接地址,通过设置的模拟用户行为功能采集到动态网页。

【技术特征摘要】
一种动态网页的采集方法,其特征在于,在客户端侧设置模拟用户行为功能,该方法还包括客户端侧和提供动态网页信息的服务器建立链接;客户端侧通过设置的模拟用户行为功能下载动态网页信息;客户端侧通过设置的模拟用户行为功能对下载的动态网页信息中的表项解析、填写并发送给服务器;客户端侧从该服务器中得到的链接地址,通过设置的模拟用户行为功能采集到动态网页。2.如权利要求1所述的方法,其特征在于,所述在客户端侧设置模拟用户行为功能为 具有配置文件的动态网页浏览器。3.如权利要求2所述的方法,其特征在于,所述浏览器采用HTMLUNIT、JUNI或 Selenium 实现。4.如权利要求2所述的方法,其特征在于,所述动态网页为论坛类的动态网页时,所述 配置文件包括获取动态网页信息的链接地址、动态网页类别及表项内容,其中,所述客户端侧和提供动态网页信息的服务器建立链接是根据配置文件中的获取动态 网页信息的链接地址建立的;所述对下载的动态网页信息中的表项填写是根据配置文件中的表项内容填写的。5.如权利要求2所述的方法,其特征在于,所述动态网页为检索类的动态网页时,所述 配置文件包括获取动态网页信息的链接地址、动态网页类别及动态网页中的内容路径,其 中,所述客户端侧和提供动态网页信息的服...

【专利技术属性】
技术研发人员:孙宏伟胡珉
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1