当前位置: 首页 > 专利查询>潘晓梅专利>正文

网页动态内容的下载方法及其系统技术方案

技术编号:2822419 阅读:219 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种网页动态内容下载方法及其系统,本发明专利技术方法包括步骤:检索页面获取符合检索条件的检索结果,根据获取到的检索结果生成下载任务列表,每个下载任务对应一条检索结果记录;链接到所述下载任务列表中相应的检索结果记录所链接的页面,并根据预先设定的该页面中的页面元素与所要提取的内容数据的对应关系,从该页面中相应的页面元素所对应的位置提取相应的内容数据;将提取到的所述内容数据保存到文件或数据库。采用本发明专利技术,可实现自动下载网页的动态内容并进行保存。

【技术实现步骤摘要】

本专利技术涉及通信领域中的计算机与互联网络通信技术,尤其涉及一种网页 动态内容的下载方法及其下载系统。
技术介绍
互联网网站包含了大量资料,要想从各种网站提供的大量资料中查找出有 用的资料,就需要进行检索。很多网站提供了资料检索功能,能够根据用户输 入的条件动态生成检索结果,检索结果通常是以列表的形式显示出来,用户可 以根据检索结果列表的链接打开查看具体某件资料记录的详细内容。这种互联网资料的检索查看方式很适合用户检索查阅资料,但这种方式存在以下局限性,例如这种方法需要使用者保持本地计算机连接互联网的状态,计算机在脱机的 时候无法使用,只有在重新连接到互联网并连接到检索页面重新输入检索关键 词后才能继续检索。由于检索条件不能重用,因此每次检索都要输入检索关键 词,比较繁瑣。对于检索到的检索结果没有保存,并且对于需要进一步查看详 细内容的资料只能手工点击查看、手工保存。因而对于检索到的资料没有有效 地组织,不利于进行资料的整理分析,也不利于将资料应用到其他文档中。因此,上述资料检索与下载方法只适合于检索查找少量资料的情况,不适 合查找大量资料的情况。目前有一些网站镜像工具能够从一批URL (Uniform Resource Locator,统 一资源定位符)开始,下载页面以及页面中的图片、声音、动画,然后根据页 面中的每一个链接,重复以上的步骤,如此递归、下载网站的全部内容,但这 些软件相对于静态内容非常有效,对于动态内容就无能为力了,而且对于下载哪些内容没有选择性和可控性,即多是一些"盲目"的4企索和下载。目前还有些网站下载工具可以将互联网上的资料数据下载保存到本地,并 建立本地资料数据库,但这种系统只能下载已经预先设定好的网站资料,不能由用户设定需要^r索下载资料的动态网站,因此应用上有一定的局限性。
技术实现思路
本专利技术提供一种网页动态内容的下载方法,以实现对网页的动态内容进行 下载和存储,该方法包括如下步骤从检索页面获取符合检索条件的检索结果,根据获取到的检索结果生成下 载任务列表,每个下载任务对应一条检索结果记录;链接到所述下载任务列表中的检索结果记录所链接的页面,并根据预先设 定的该页面中的页面元素与所要提取的内容数据的对应关系,从该页面中相应 的页面元素所对应的位置提取相应的内容数据;将提取到的所述内容数据保存到文件或数据库。本专利技术还提供了一种网页动态内容的下载系统,该系统包括任务管理模 块和数据管理模块,以及至少一个下载管理才莫块;所述任务管理模块,用于从检索页面获取符合检索条件的检索结果,根据 获取到的检索结果生成下载任务列表,每个下载任务对应一条检索结果记录;所述下载管理模块,用于链接到所述任务管理模块生成的下载任务列表中 的检索结果记录所链接的页面,并根据预先设定的该页面中的页面元素与所要 提取的内容数据的对应关系,从该页面中相应的页面元素所对应的位置提取相 应的内容数据;所述数据管理模块,用于将所述下载管理模块提取到的所述内容数据保存 到文件或数据库。本专利技术有益效果如下本专利技术通过根据检索结果生成下载任务列表,执行下载任务列表中的下载任务,得到与检索结果对应的内容数据并进行保存,从而实现了对网页的动态 内容进行下载和存^ft。附图说明图1为本专利技术实施例的运行环境示意图2为本专利技术实施例提供的网页动态内容下载系统的结构示意图。具体实施例方式下面结合附图对本专利技术实施例进行详细描述。本专利技术实施例提供了一种网页动态内容下载方法和网页动态内容下载系 统,该方法和系统运行在如图1所示的C/S (Client/Server,客户端/服务器) 架构下。该架构包括数据库服务器、文件服务器,以及多个客户机。客户机可 以通过上网设备与Internet连接,客户机通过内部网络与数据库服务器和文件 服务器连接。用户可以从客户机对Internet上的网页动态内容进行检索并下载, 并可以将下载资料的元数据保存于数据库服务器,将下载资料的文件数据保存 于文件服务器。参见图2,为本专利技术实施例提供的网页动态内容下载系统的结构示意图, 该系统包括任务管理模块、下载管理模块和数据管理模块。其中,下载管理模 块可以有多个。任务管理模块用于设置下载任务,包括设置检索页面地址、获取检索条 件并保存、保存检索结果列表到数据库或文件,生成下载任务列表。该任务管 理模块包括检索地址设置子模块,用于设置进行资料检索的检索页面的链接地址,该 检索页面是可以供用户输入检索条件的页面。该子模块提供检索地址设置窗 口,并可以获取用户在该窗口中输入的页面地址,或获取用户从该窗口提供的 可供选择的检索页面地址中选中的地址。检索地址设置子模块在用户设置完成检索页面地址后,链接到该地址,向用户提供检索条件输入界面。检索条件获取子模块,用于获取用户在网站返回的检索页面中输入的检索关键词并保存;检索结果获取子模块,用于根据检索条件获取子模块获取到的检索条件, 获取与用户输入的检索关键词对应的检索结果列表;任务列表生成子模块,用于将检索结果获取子单元获取到的检索结果列表 进行保存,可保存到凝:据库中,也可保存到文件中,生成下载任务列表;该任务管理模块还可以包括任务调度子模块,用于调度下载任务列表中的 下栽任务,根据用户的设定,为下载任务分配合理的下栽线程,如,为下载任 务指定一个或多个下载管理^i块,使执行该下载任务时,可由指定的多个下载 模块同时进行下载,从而可提高下载效率。下载管理模块用于按照任务管理模块设置的下载任务,从指定的网站下载 资料。该下载管理模块包括下载执行子模块,用于执行下载任务,根据任务列表中的下载任务生成发 送到相应网站的请求消息,请求获取详细内容;内容提取子模块,用于接收相应网站返回的详细内容,并从返回的页面源文件中提取相应的内容数据。数据管理模块用于将下载管理模块下载的资料保存于数据库服务器和文 件服务器。该数据管理模块包括元数据处理子模块,用于将下载管理模块提取到的有关该详细内容数据的 元数据信息保存到资料数据库的元数据库中;文件数据处理子模块,用于将下载管理模块提取到的详细内容数据(如文 本或图像)保存到本地或文件服务器,并建立与资料数据库中的元数据记录的 对应关系。采用上述动态网页内容下载系统对网页动态内容进行下载的过程,包括下 载任务生成阶段和下载执行阶段。下载任务的生成主要由任务管理模块完成。任务管理模块根据指定的检索条件,获得符合检索条件的检索结果列表, 生成下载任务列表。任务管理模块既可以设置新的检索条件进行检索,也可以 选择重用已保存过的检索条件进行检索。任务管理模块中的检索地址设置子模块为用户提供检索设置界面,用户可 以通过检索设置界面设置检索条件,以获取对应的检索结果列表。客户端界面可以包括多个窗口,例如设置检索页面地址的设置窗口、检 索条件输入窗口、检索结果列表显示窗口等。如果通过设置新的检索条件进行检索,用户首先在检索页面地址的设置窗 口中设置检索页面的URL地址,可以在输入框中输入URL地址,也可以在预 先设置的地址列表中选择URL地址或网站名称,其中网站名称与该网站的检 索页面URL地址相对应。设置检索页面地址后,检索地址设置子模块保存该 地址设置,并可自动连接到该地址对应的检索页面,将该4企索本文档来自技高网
...

【技术保护点】
一种网页动态内容下载方法,其特征在于,包括如下步骤:从检索页面获取符合检索条件的检索结果,根据获取到的检索结果生成下载任务列表,每个下载任务对应一条检索结果记录;链接到所述下载任务列表中的检索结果记录所链接的页面,并根据预先设定的该页面中的页面元素与所要提取的内容数据的对应关系,从该页面中相应的页面元素所对应的位置提取相应的内容数据;将提取到的所述内容数据保存到文件或数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员:王全喜
申请(专利权)人:潘晓梅
类型:发明
国别省市:13[中国|河北]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1