【技术实现步骤摘要】
本专利技术涉及一种网页下载解析系统及方法。
技术介绍
获取商业新闻和行业资料以供决策者分析,是企业活动中的重要内容。随着互联网的运用,企业(尤其是大型企业)从公共网站下载各种资料保存到自己的数据库中越来越普遍,通常下载的网页中包括各种资料(如:文本、图片),目前企业从公共网站上下载的资料数量庞大,通常下载的方式是访问网站上的每条资料页面,之后判断该条资料是否下载,如此既费时,效率不高,且浪费网络资源。
技术实现思路
鉴于以上内容,有必要提供一种网页下载解析系统,其可以通过在数据库中查找资料的标题及标题对应的网页链接地址判断该条资料是否存在,对数据库中不存在该标题及标题对应的网页链接地址的资料进行下载。此外,还有必要提供一种网页下载解析方法,其可以通过在数据库中查找资料的标题及标题对应的网页链接地址判断资料是否存在,对数据库中不存在该标题及标题对应的网页链接地址的资料进行下载。一种网页下载解析系统,包括客户端计算机、服务器及数据库,所述客户端计算机包括访问下载模块、获取模块及截取生成模块,所述服务器包括判断模块、解析模块、保存模块及生成模块,其中:访问下载模块,用于访 ...
【技术保护点】
一种网页下载解析系统,包括客户端计算机、服务器及数据库,其特征在于,所述客户端计算机包括访问下载模块、获取模块及截取生成模块,所述服务器包括判断模块、解析模块、保存模块及生成模块,其中: 访问下载模块,用于访问设置的网页并将其以XML 文件形式下载到客户端计算机的内存中; 获取模块,用于获取所述XML文件中的标题及标题对应的网页链接地址; 判断模块,用于判断数据库中是否存在所述标题及标题对应的网页链接地址; 所述访问下载模块,还用于当数据库中不存在所述标 题及标题对应的网页链接地址时,根据上述标题的网页链接地址访问该标题网页并将其 ...
【技术特征摘要】
【权利要求1】一种网页下载解析系统,包括客户端计算机、服务器及数据库,其特征在于,所述客户端计算机包括访问下载模块、获取模块及截取生成模块,所述服务器包括判断模块、解析模块、保存模块及生成模块,其中:访问下载模块,用于访问设置的网页并将其以XML文件形式下载到客户端计算机的内存中;获取模块,用于获取所述XML文件中的标题及标题对应的网页链接地址;判断模块,用于判断数据库中是否存在所述标题及标题对应的网页链接地址;所述访问下载模块,还用于当数据库中不存在所述标题及标题对应的网页链接地址时,根据上述标题的网页链接地址访问该标题网页并将其以XML文件形式下载到客户端计算机的内存中;截取生成模块,用于根据资料在XML文件中对应的标签及存放位置,截取标题网页的XML文件中用户需要的资料,之后将用户需要的资料生成新的XML文件;解析模块,用于根据资料在XML文件中对应的标签,将所述新生成的XML文件中的相关资料解析出来,使其与数据库中存放资料的格式一致;保存模块,用于将所述解析的资料保存到数据库中,并对所述解析的资料建立全文索引;所述判断模块,还用于判断所述新生成的XML文件中是否存在图片资料;所述访问下载模块,还用于当所述新生成的XML文件中存在图片资料时,用于根据图片的链接地址访问该图片并将该图片下载到客户端计算机的内存中;生成模块,用于在服务器中生成该图片的存放路径;及所述保存模块,还用于根据所述图片存放路径将客户端计算机内存中的图片保存到服务器的存储介质中。【权利要求2】如权利要求1所述的网页下载解析系统,其特征在于,所述判断模块还用于当所述新生成的XML文件中存在图片资料时,判断该图片的链接地址是否齐全;所述服务器还包括修正模块,所述修正模块用于当图片的链接地址不齐全时,将所述不齐全的图片的链接地址进行修正。【权利要求3】如权利要求2所述的网页下载解析系统,其特征在于,所述保存模块还用于将图片的链接地址及当前时间保存到数据库中,以其作为图片的属性信息。【权利要求4】如权利要求3所述的网页下载解析系统,其特征在于,所述服务器还包括增加模块,所述增加模...
【专利技术属性】
技术研发人员:李忠一,叶建发,李大鹏,李支红,
申请(专利权)人:鸿富锦精密工业深圳有限公司,鸿海精密工业股份有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。