利用HTML脚本解析的异构系统间多层级数据同步方法及系统技术方案

技术编号:10230200 阅读:117 留言:0更新日期:2014-07-18 03:50
一种利用HTML脚本解析的异构系统间多层级数据同步方法及系统,其特征是所述的方法包括后台程序模拟用户登录,通过指定URL页面发送请求;接收页面发送的URL请求;解析URL,抽取数据;判断当前页面是否有更新;查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤106;否则,执行步骤105;忽略本次URL请求;对所述URL请求不作处理,直接忽略,结束流程;采集网页数据并存储;采集所述URL对应的网页数据,交给数据存储服务器进行存储;判断下一层级数据;根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101;否则,结束流程。本发明专利技术解决了跨系统数据同步共享问题,具有速度快,准确性高的优点。

【技术实现步骤摘要】
【专利摘要】一种利用HTML脚本解析的异构系统间多层级数据同步方法及系统,其特征是所述的方法包括后台程序模拟用户登录,通过指定URL页面发送请求;接收页面发送的URL请求;解析URL,抽取数据;判断当前页面是否有更新;查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤106;否则,执行步骤105;忽略本次URL请求;对所述URL请求不作处理,直接忽略,结束流程;采集网页数据并存储;采集所述URL对应的网页数据,交给数据存储服务器进行存储;判断下一层级数据;根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101;否则,结束流程。本专利技术解决了跨系统数据同步共享问题,具有速度快,准确性高的优点。【专利说明】利用HTML脚本解析的异构系统间多层级数据同步方法及系统
本专利技术涉及一种数据解析及数据采集技术,尤其涉及一种利用HTML脚本解析的异构系统间多层级数据同步方法及系统。
技术介绍
目前,随着信息技术的不断发展,现今各大行业企事业单位在经过多年的信息化建设,形成了基于自己公司实际情况的面向各个职能、业务部门的专业系统,而多个系统拥有相对独立的数据存储结构与方案,这对跨系统数据的共享及整合分析造成一定的难度。针对此类问题,现有解决方案通常是通过开发数据接口或生成特定的数据交换文件方式解决。此种解决方案无法脱离业务系统,需要系统开发方根据需求配合开发诸多接口,为一种双向都要开发的系统,协调工作较为繁琐。若将双向开发变为单向需求方开发,无疑将降低数据同步工作的开发难度,节约大量协调成本。
技术实现思路
本专利技术的目的是针对目前跨系统数据同步共享不便的问题,专利技术一种利用HTML脚本解析的异构系统间多层级数据同步方法,同时提供一种相匹配的系统。本专利技术的技术方案之一是:一种利用HTML脚本解析的异构系统间多层级数据同步方法,其特征是它包括以下步骤: 步骤101:后台程序模拟用户登录,通过指定URL页面发送请求; 步骤102:接收页面发送的URL请求; 步骤103:解析URL,抽取数据; 步骤104:判断当前页面是否有更新;查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤106 ;否则,执行步骤105 ; 步骤105:忽略本次URL请求;对所述URL请求不作处理,直接忽略,结束流程; 步骤106:采集网页数据并存储;采集所述URL对应的网页数据,交给数据存储服务器进行存储; 步骤107:判断下一层级数据;根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101 ;否则,结束流程。所述指定URL为异构系统上某个预知的链接的URL,该URL对应网页所包含的数据即所述业务系统需要同步的数据。所述解析URL是指生成HTML源文件,取出包含目标数据的源码块,生成DOM文档对象,解析DOM文档对象并抽取出目标数据。本专利技术的技术方案之二是:一种利用HTML脚本解析的异构系统间多层级数据同步异构系统间多层级数据同步系统,其特征是它包括数据采集服务器200和数据存储服务器300,其中数据存储服务器300用于存储数据采集服务器200所采集的数据;所述的数据采集服务器200用于采集目标网页数据,包括用于通过后台程序模拟用户登录指定URL的网页并向后台发送请求的发送请求模块201、用于接收指定URL的网页所发送的请求的接收请求模块202和用于判断指定URL的网页是否有更新,在有更新时触发采集模块的判断模块203和用于采集指定URL网页的数据的数据采集模块204。本专利技术的有益效果: 本专利技术解决了跨系统数据同步共享问题,具有速度快,准确性高的优点。同时通过异构系统间多层级数据同步系统将数据采集服务器与数据存储服务器分离,有利于减轻自身系统的负担,提闻数据同步的效率。【专利附图】【附图说明】图1为本专利技术同步方法的流程图。图2为本专利技术同步系统的结构示意图。【具体实施方式】下面结合附图和实施例对本专利技术作进一步的说明。实施例一。如图1所示。一种利用HTML脚本解析的异构系统间多层级数据同步方法包括以下步骤: 步骤101:后台程序模拟用户登录,通过指定URL页面发送请求; 所述指定URL为异构系统上某个预知的链接的URL,该URL对应网页所包含的数据即所述业务系统需要同步的数据。步骤102:接收页面发送的URL请求; 步骤103:解析URL,抽取数据; 解析所述URL,生成HTML源文件,取出包含目标数据的源码块,生成DOM文档对象解析DOM文档对象并抽取出目标数据。步骤104:判断当前页面是否有更新; 查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤016 ;否则,执行步骤015。步骤105:忽略本次URL请求; 对所述URL请求不作处理,直接忽略,结束流程。步骤106:采集网页数据并存储; 采集所述URL对应的网页数据,交给数据存储服务器进行存储。步骤107:判断下一层级数据; 根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101;否则,结束流程。实施例二。一种利用HTML脚本解析的异构系统间多层级数据同步异构系统间多层级数据同步系统,它包括数据采集服务器200和数据存储服务器300,如图2所示,其中数据存储服务器300用于存储数据采集服务器200所采集的数据;所述的数据采集服务器200用于采集目标网页数据,包括用于通过后台程序模拟用户登录指定URL的网页服务器400并向后台发送请求的发送请求模块201、用于接收指定URL的网页服务器400所发送的请求的接收请求模块202和用于判断指定URL的网页是否有更新,在有更新时触发采集模块的判断模块203和用于采集指定URL网页服务器400的数据的数据采集模块204,判断模块203与数据存储服务器300双向连接,数据采集模块204的输出接数据存储服务器300的输入。本专利技术未涉及部分均与现有技术相同或可采用现有技术加以实现。【权利要求】1.一种利用HTML脚本解析的异构系统间多层级数据同步方法,其特征是它包括以下步骤: 步骤101:后台程序模拟用户登录,通过指定URL页面发送请求; 步骤102:接收页面发送的URL请求; 步骤103:解析URL,抽取数据; 步骤104:判断当前页面是否有更新;查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤106 ;否则,执行步骤105 ; 步骤105:忽略本次URL请求;对所述URL请求不作处理,直接忽略,结束流程; 步骤106:采集网页数据并存储;采集所述URL对应的网页数据,交给数据存储服务器进行存储; 步骤107:判断下一层级数据;根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101 ;否则,结束流程。2.根据权利要求1所述方法,其特征是所述指定URL为异构系统上某个预知的链接的URL,该URL对应网页所包含的数据即所述业务系统需要同步的数据。3.根据权利要求1所述方法,其特征是所述解析URL是指生成HTML源文件,取出包含目标数据的源本文档来自技高网
...

【技术保护点】
一种利用HTML脚本解析的异构系统间多层级数据同步方法,其特征是它包括以下步骤:步骤101:后台程序模拟用户登录,通过指定URL页面发送请求;步骤102:接收页面发送的URL请求;步骤103:解析URL,抽取数据;步骤104:判断当前页面是否有更新;查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤106;否则,执行步骤105;步骤105:忽略本次URL请求;对所述URL请求不作处理,直接忽略,结束流程;步骤106:采集网页数据并存储;采集所述URL对应的网页数据,交给数据存储服务器进行存储;步骤107:判断下一层级数据;根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101;否则,结束流程。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱红张明孙佳炜嵇文路朱红勤郭晏
申请(专利权)人:国家电网公司江苏省电力公司南京供电公司江苏省电力公司南京鑫欧欣信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1