下载资料解析及处理系统及方法技术方案

技术编号:3476354 阅读:151 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种下载资料解析及处理系统,该系统包括本地服务器。该本地服务器包括:资料缓存区,用于暂存下载资料;资料解析模块,用于解析所述下载资料得到该下载资料的文字信息,所述文字信息包括下载资料中图片的URL信息;图片属性变更模块,用于将下载资料中各图片的URL信息更改为预先定义好、包含该图片标识符的的字符串;及资料存储模块,用于将上述下载资料的文字信息储存于数据库服务器,根据数据库服务器返回的图片识别信息将资料缓存区中的相应图片储存于所述图片储存服务器,并将图片储存服务器返回的图片存储路径保存至上述数据库服务器中该图片的信息记录中。本发明专利技术同时提供一种下载资料解析及处理方法。

【技术实现步骤摘要】

本专利技术涉及一种。
技术介绍
近年来,由于计算机技术和网络技术的迅速发展,网上浏览资讯已成为人们日常工作、 学习和生活中不可或缺的一个重要部分,网络以其信息量大、信息更新迅速,成为全球"最 大的图书馆"。通过网络,人们可以了解任何各种各样的事物,收集自己想要的资料。例如,在企业进 行新产品研发过程中,研发人员需要通过本地端服务器从网上下载大量与产品相关的资料并 将这些资料储存于本地端的数据库,这些资料大多是以网页的形式显示的。通常,在下载资料的过程中,原始资料中图片的URL (uniform resource locator,统 一资源定位符)在本地服务器端会被网管修改成可显示图片的本地URL。与本地服务器相连 的用户可以通过该本地URL获取图片。这样做的缺陷是,若显示图片的本地URL发生变化,用 户端未收到变更后的新的本地URL时,或者原本地URL没有映射到新的本地URL,用户将无法 通过原本地URL访问图片。
技术实现思路
鉴于以上内容,有必要提供一种下载资料解析及处理系统,可以在本地服务器下载资料 过程中对资料中的图片URL信息进行灵活处理,提高用户访问下载资料时图片显示的灵活性此外,还有必要提供一种下载资料解析及处理方法,可以在本地服务器下载资料过程中 对资料中的图片URL信息进行灵活处理,提高用户访问下载资料时图片显示的灵活性。一种下载资料解析及处理系统,该系统包括通过网络从远端服务器下载资料的本地服务 器、与本地服务器相连的数据库服务器及图片储存服务器。所述本地服务器包括资料缓存 区,用于暂存所述下载资料;资料解析模块,用于解析所述下载资料得到该下载资料的文字 信息,所述文字信息包括下载资料中图片的原始URL信息;图片属性变更模块,用于将下载 资料中各图片的原始URL信息替换为预先定义好且包含该图片标识符的字符串;及资料存储 模块,用于将上述下载资料的文字信息,包括上述替换图片原始URL信息的字符串,储存于 所述数据库服务器,根据数据库服务器返回的图片识别信息将资料缓存区中的相应图片储存于所述图片储存服务器,并将图片储存服务器返回的图片存储路径保存至上述数据库服务器 中该图片的信息记录中。一种下载资料解析及处理方法,该方法包括以下步骤(A)将本地服务器从远端服务 器下载的资料暂存于本地服务器的资料缓存区;(B)解析所述下载资料得到该下载资料的 文字信息,包括下载资料中图片的原始URL信息;(C)将下载资料中各图片的URL信息替换 为预先定义好且包含该图片标识符的字符串;(D)将所述文字信息,包括上述替换图片原 始URL信息的字符串,储存于所述数据库服务器;(E)数据库服务器为下载资料中的每一张 图片分配一个标识,并为每一张图片创建一条信息记录,以记录该图片的识别信息及该图片 的存储路径信息;(F)数据库服务器返回图片识别信息给本地服务器;(G)本地服务器根 据图片识别信息从资料缓存区撷取相应图片,并将该图片储存于图片储存服务器;及(H) 本地服务器接收图片储存服务器返回的图片的存储路径信息,并将该存储路径信息添加至该 图片的信息记录中。相较于现有技术,本专利技术所提供的不直接将下载资料中 图片的原始URL属性更改为下载服务器端定义的URL,而是替换为为预先定义好、包含该图片 标识符的的字符串,当下载服务器的用户访问下载资料时,字符串自动转换成用户想要显示 所述的图片的URL。附图说明图l是本专利技术下载资料解析及处理系统较佳实施例的硬件架构图。图2是图1中本地服务器10的功能模块图。图3是本专利技术下载资料解析及处理方法较佳实施例的流程图。图4是用户向应用本专利技术网页信息解析及处理方法的本地服务器10请求浏览新闻网页时 的作业流程图。具体实施例方式如图1所示,是本专利技术下载资料解析及处理系统较佳实施例的硬件架构图。该系统包括 本地服务器IO,该本地服务器10通过互联网20从远端服务器30下载资料(如新闻网页),并 将所下载的资料储存于数据库,如本地服务器10将新闻网页中的文字信息及图片信息分别储 存于数据库服务器40及图片储存服务器50。该数据库服务器40及该图片储存服务器50可以位 于本地服务器IO内部,也可以位于本地服务器10外部。进一步地,本地服务器10通过内部网络60连接多个客户端70,接收客户端访问下载网页 的请求,从数据库服务器40及图片储存服务器50撷取网页的相关文字信息和图片信息返回给客户端70。客户端70具有交互式图形界面,供用户向本地服务器10发送请求及浏览本地服务器10提 供的网页资料。如图2所示,是图1中本地服务器10的功能模块图。该本地服务器10包括资料下载模块 110、资料解析模块120、图片属性变更模块130及资料储存模块140。资料下载模块110用于通过互联网20从远端服务器30下载资料,如下载新闻网页,并将 下载资料暂存于本地服务器IO的资料缓存区IOO。资料解析模块120用于解析缓存区100储存的下载资料,如解析新闻网页,获取新闻网页 中的文字信息,包括新闻网址、新闻发布机构、发布时间、新闻标题、摘要、网页中图片的 URL等信息。图片属性变更模块130用于每一笔下载资料中图片的URL信息替换为预先定义好且包含该 图片标识符的的字符串。例如,将一个新闻网页中〈imagesrc=http://www. google. com/intl/zh-CN—ALL/images/ logo, gif/〉替换成〈image src="$i",其中数字i表示该图片为该新闻网页中的第一幅图片。资料储存模块140用于将解析所得的文字信息,包括上述替换图片原始URL信息的字符串 ,储存于数据库服务器40。数据库服务器40接收上述解析所得的资料的文字信息后,为每一笔下载资料及该笔下载 资料中的每一个图片分配一个标识,例如为每一个新闻网页分配一个新闻标识(newID)、 为该新闻网页中的每一张图片分配一个图片标识(imageID)。进一步地,数据库服务器40为 每一张图片创建一条信息记录,记录中包括该图片所属资料的标识、图片标识、图片原始 URL信息、替换该原始URL信息的字符串信息及图片存储路径等栏位。最后,数据库服务器 40并将各信息记录中的图片识别信息,包括图片标识、图片原始URL信息及替换该原始URL信 息的字符串信息,返回给资料解析模块120。接下来,资料解析模块120根据数据库服务器40返回的上述图片识别信息将资料缓存区 100中的相应图片储存至图片储存服务器50;图片储存服务器50返回该图片的存储路径信息 通过本地服务器10送交数据库服务器40。最后,数据库服务器40将该图片存储路径信息添加 至该图片的信息记录中。如图3所示,是本专利技术下载资料解析及处理方法较佳实施例的流程图。首先,资料下载 模块110通过互联网20从远端服务器30下载资料(如一个新闻网页),并将该下载资料暂存 于资料缓存区IOO (步骤SIO)。资料解析模块120解析下载资料得到该下载资料的文字信息,如解析所述新闻网页,获取新闻网址、新闻发布机构、发布时间、新闻标题、摘要、网页 中图片的URL属性等信息(步骤S12)。图片属性变更模块130将该下载资料中图片的URL信息 替换为预先定义好且包含该图片标识符本文档来自技高网...

【技术保护点】
一种下载资料解析及处理系统,该系统包括本地服务器、与本地服务器相连的数据库服务器及图片储存服务器,该本地服务器通过网络从远端服务器下载资料,其特征在于,该本地服务器包括: 资料缓存区,用于暂存所述下载资料; 资料解析模块,用于解析所述下载资料得到该下载资料的文字信息,所述文字信息包括下载资料中图片的原始URL信息; 图片属性变更模块,用于将下载资料中各图片的原始URL信息替换为预先定义好且包含该图片标识符的字符串;及 资料存储模块,用于将下载资料的文字信息,包括上述替换图片原始URL信息的字符串,储存于所述数据库服务器; 所述数据库服务器用于接收下载资料的文字信息并为下载资料中的每一张图片创建一条信息记录,以记录该图片的识别信息及该图片的存储路径信息,并返回图片识别信息给资料存储模块; 所述资料存储模块根据数据库服务器返回的图片识别信息将资料缓存区中的相应图片储存于所述图片储存服务器,并将图片储存服务器返回的图片存储路径保存至上述数据库服务器该图片的信息记录。

【技术特征摘要】

【专利技术属性】
技术研发人员:李忠一叶建发李大鹏李支红
申请(专利权)人:鸿富锦精密工业深圳有限公司鸿海精密工业股份有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1