网页下载解析系统及方法技术方案

技术编号:2912591 阅读:213 留言:0更新日期:2012-04-11 18:40
一种网页下载解析方法,该方法包括如下步骤:访问设置的网页并将其以XML文件形式下载;获取所述XML文件中的标题及其链接地址;当数据库中不存在所述标题及其链接地址时,访问该标题网页并将其以XML文件形式下载;截取标题网页的XML文件中用户需要的资料,生成新的XML文件;解析新生成的XML文件中的资料;将解析的资料保存到数据库中;当新生成的XML文件中存在图片资料时,访问该图片并下载该图片,在服务器中生成图片的存放路径,根据图片存放路径将图片保存到服务器中。另外,本发明专利技术还提供一种网页下载解析系统。

【技术实现步骤摘要】

本专利技术涉及一种网页下载解析系统及方法
技术介绍
获取商业新闻和行业资料以供决策者分析,是企业活动中的重要内容。随着互联网的运用,企业(尤其是大型企业)从公共网站下载各种资料保存到自己的数据库中越来越普遍,通常下载的网页中包括各种资料(如:文本、图片),目前企业从公共网站上下载的资料数量庞大,通常下载的方式是访问网站上的每条资料页面,之后判断该条资料是否下载,如此既费时,效率不高,且浪费网络资源。
技术实现思路
鉴于以上内容,有必要提供一种网页下载解析系统,其可以通过在数据库中查找资料的标题及标题对应的网页链接地址判断该条资料是否存在,对数据库中不存在该标题及标题对应的网页链接地址的资料进行下载。此外,还有必要提供一种网页下载解析方法,其可以通过在数据库中查找资料的标题及标题对应的网页链接地址判断资料是否存在,对数据库中不存在该标题及标题对应的网页链接地址的资料进行下载。一种网页下载解析系统,包括客户端计算机、服务器及数据库,所述客户端计算机包括访问下载模块、获取模块及截取生成模块,所述服务器包括判断模块、解析模块、保存模块及生成模块,其中:访问下载模块,用于访问设置的网页并将其以XML文件形式下载到客户端计算机的内存中;获取模块,用于获取所述XML文件中的标题及标题对应的网页链接地址;判断模块,用于判断数据库中是否存在所述标题及标题对应的网页链接地址;所述访问下载模块,还用于当数据库中不存在所述标题及标题对应的网页链接地址时,根据上述标题的网页链接地址访问该标题网页并将其以XML文件形式下载到客户端计算机的内存中;截取生成模块,用于根据资料在XML文件中对应的标签及存放位置,截取标题网页的XML文件中用户需要的资料,之后将用户需要的资料生成新的XML文件;解析模块,用于根据资料在XML文件中对应的标签,将所述新生成的XML文件中的相关资料解析出来,使其与数据库中存放资料的格式一致;保存模块,用于将所述解析的资料保存到数据库中,并对所述解析的资料建立全文索引;所述判断模块,还用于判断所述新生成的XML文件中是否存在图片资料;所述访-->问下载模块,还用于当所述新生成的XML文件中存在图片资料时,用于根据图片的链接地址访问该图片并将该图片下载到客户端计算机的内存中;生成模块,用于在服务器中生成该图片的存放路径;所述保存模块,还用于根据所述图片存放路径将客户端计算机内存中的图片保存到服务器的存储介质中。一种网页下载解析方法,该方法包括如下步骤:访问设置的网页并将其以XML文件形式下载到客户端计算机的内存中;获取所述XML文件中的标题及标题对应的网页链接地址;判断数据库中是否存在所述标题及标题对应的网页链接地址;当数据库中不存在所述标题及标题对应的网页链接地址时,根据上述标题的网页链接地址访问该标题网页并将其以XML文件形式下载到客户端计算机的内存中;根据资料在XML文件中对应的标签及存放位置,截取该标题网页的XML文件中用户需要的资料,之后将用户需要的资料生成新的XML文件;根据资料在XML文件中对应的标签,将所述新生成的XML文件中的相关资料解析出来,使其与数据库中存放资料的格式一致;将所述解析的资料保存到数据库中,并对所述解析的资料建立全文索引;当所述新生成的XML文件中存在图片资料时,根据图片的链接地址访问该图片并将该图片下载到客户端计算机的内存中,在服务器中生成该图片的存放路径,根据所述图片存放路径将客户端计算机内存中的图片保存到服务器的存储介质中。相较于现有技术,其可以通过在数据库中查找资料的标题及标题对应的网页链接地址判断该条资料是否存在,对数据库中不存在该标题及标题对应的网页链接地址的资料进行下载,避免了系统对每条资料都进行访问,提高了下载效率,节约了网络资源。附图说明图1是本专利技术网页下载解析系统的较佳实施例的硬件框架图。图2是本专利技术网页下载解析系统较佳实施例的功能模块图。图3是本专利技术网页下载解析方法较佳实施例的流程图。具体实施方式如图1所示,是本专利技术一种网页下载解析系统较佳实施例的硬件架构图。该系统包括互联网10、客户端计算机20、服务器30及数据库40。该服务器30可以是个人计算机、网络服务器,还可以是任意其它适用的计算机。该服务器30与数据库40相连,该数据库40用于存储服务器30所保存的网页文本资料及操作过程中的各种信息,该数据库40可以内置于服务器30,也可以外置于服务器30。此外,该服务器30与至少一客户端计算机20相连,该客户端计算机20用于提供一个互动式界面给用户,便于用户进行操作并将操作过程中的各种信息保存于服务器30中,客户端计-->算机20通过互联网访问用户设置的网站地址,并将访问的网页以XML(Extensible MarkupLanguage,可扩展标记语言)文件形式下载到客户端计算机20的内存中。如图2所示,是本专利技术网页下载解析系统较佳实施例的功能模块图。所述客户端计算机20包括访问下载模块201、获取模块202及截取生成模块203。所述服务器30包括判断模块301、解析模块302、保存模块303、修正模块304、生成模块305及增加模块306。本专利技术所称的模块是完成一特定功能的计算机程序段,比程序更适合于描述软件在计算机中的执行过程,因此在本专利技术以下对软件描述中都以模块描述。所述访问下载模块201用于访问设置的网页并将其以XML文件形式下载到客户端计算机20的内存中。具体而言,用户在进行网页下载之前会设置网页的链接地址,一般情况下,由于下载的是新闻资料,通常用户进行设置的网页链接地址是大型新闻网站的链接地址,访问下载模块201根据用户设置的网页链接地址访问该网页,并将该网页以XML文件形式下载到客户端计算机20的内存中,下载的方式是通过脚本语言下载命令(如:Xquery脚本语言下载命令)将网页以XML文件形式下载到客户端计算机20的内存中,要下载不同的网站上资料需要设置对应网站的链接地址。所述获取模块202用于获取所述XML文件中的标题及标题对应的网页链接地址。具体而言,通常用户设置的网页上每条新闻资料都有对应的标题,标题下都有对应的网页链接地址。网页转换成XML文件格式之后网页上所有的资料都有对应的标签,例如,网页资料发布日期的信息在XML文件中有对应的标签“date”,资料的标题有对应的标签“title”,资料的内容有对应的标签“content”,获取模块202通过读取XML文件中的标签“title”就可以直接获取该网页下的标题及标题对应的网页链接地址。所述判断模块301用于判断数据库40中是否存在所述标题及标题对应的网页链接地址。所述访问下载模块201用于当数据库40中不存在所述标题及标题对应的网页链接地址时,根据上述标题的网页链接地址访问该标题网页并将其以XML文件形式下载到客户端计算机20的内存中。所述截取生成模块203用于根据资料在XML文件中对应的标签及存放位置,截取标题网页的XML文件中用户需要的资料,之后将用户需要的资料生成新的XML文件。具体而言,通常网页上除了用户需要的资料(如:新闻资料)之外,还有一些其它资料(如:广告等),网页上资料的排版是固定的,例如,新闻资料在某一个固定的位置,广告在一个固定的位置,网页在转换成XML文件本文档来自技高网...

【技术保护点】
一种网页下载解析系统,包括客户端计算机、服务器及数据库,其特征在于,所述客户端计算机包括访问下载模块、获取模块及截取生成模块,所述服务器包括判断模块、解析模块、保存模块及生成模块,其中: 访问下载模块,用于访问设置的网页并将其以XML 文件形式下载到客户端计算机的内存中; 获取模块,用于获取所述XML文件中的标题及标题对应的网页链接地址; 判断模块,用于判断数据库中是否存在所述标题及标题对应的网页链接地址; 所述访问下载模块,还用于当数据库中不存在所述标 题及标题对应的网页链接地址时,根据上述标题的网页链接地址访问该标题网页并将其以XML文件形式下载到客户端计算机的内存中; 截取生成模块,用于根据资料在XML文件中对应的标签及存放位置,截取标题网页的XML文件中用户需要的资料,之后将用 户需要的资料生成新的XML文件; 解析模块,用于根据资料在XML文件中对应的标签,将所述新生成的XML文件中的相关资料解析出来,使其与数据库中存放资料的格式一致; 保存模块,用于将所述解析的资料保存到数据库中,并对所述解析的资料 建立全文索引; 所述判断模块,还用于判断所述新生成的XML文件中是否存在图片资料; 所述访问下载模块,还用于当所述新生成的XML文件中存在图片资料时,用于根据图片的链接地址访问该图片并将该图片下载到客户端计算机的内存中;  生成模块,用于在服务器中生成该图片的存放路径;及 所述保存模块,还用于根据所述图片存放路径将客户端计算机内存中的图片保存到服务器的存储介质中。...

【技术特征摘要】
【权利要求1】一种网页下载解析系统,包括客户端计算机、服务器及数据库,其特征在于,所述客户端计算机包括访问下载模块、获取模块及截取生成模块,所述服务器包括判断模块、解析模块、保存模块及生成模块,其中:访问下载模块,用于访问设置的网页并将其以XML文件形式下载到客户端计算机的内存中;获取模块,用于获取所述XML文件中的标题及标题对应的网页链接地址;判断模块,用于判断数据库中是否存在所述标题及标题对应的网页链接地址;所述访问下载模块,还用于当数据库中不存在所述标题及标题对应的网页链接地址时,根据上述标题的网页链接地址访问该标题网页并将其以XML文件形式下载到客户端计算机的内存中;截取生成模块,用于根据资料在XML文件中对应的标签及存放位置,截取标题网页的XML文件中用户需要的资料,之后将用户需要的资料生成新的XML文件;解析模块,用于根据资料在XML文件中对应的标签,将所述新生成的XML文件中的相关资料解析出来,使其与数据库中存放资料的格式一致;保存模块,用于将所述解析的资料保存到数据库中,并对所述解析的资料建立全文索引;所述判断模块,还用于判断所述新生成的XML文件中是否存在图片资料;所述访问下载模块,还用于当所述新生成的XML文件中存在图片资料时,用于根据图片的链接地址访问该图片并将该图片下载到客户端计算机的内存中;生成模块,用于在服务器中生成该图片的存放路径;及所述保存模块,还用于根据所述图片存放路径将客户端计算机内存中的图片保存到服务器的存储介质中。【权利要求2】如权利要求1所述的网页下载解析系统,其特征在于,所述判断模块还用于当所述新生成的XML文件中存在图片资料时,判断该图片的链接地址是否齐全;所述服务器还包括修正模块,所述修正模块用于当图片的链接地址不齐全时,将所述不齐全的图片的链接地址进行修正。【权利要求3】如权利要求2所述的网页下载解析系统,其特征在于,所述保存模块还用于将图片的链接地址及当前时间保存到数据库中,以其作为图片的属性信息。【权利要求4】如权利要求3所述的网页下载解析系统,其特征在于,所述服务器还包括增加模块,所述增加模...

【专利技术属性】
技术研发人员:李忠一叶建发李大鹏李支红
申请(专利权)人:鸿富锦精密工业深圳有限公司鸿海精密工业股份有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1