一种数据采集方法、装置、可读介质及电子设备制造方法及图纸

技术编号:21309041 阅读:27 留言:0更新日期:2019-06-12 10:59
本发明专利技术公开了一种数据采集方法、装置、可读介质及电子设备,方法包括:监听并记录指定终端向目标业务系统发送的第一超文本传输协议HTTP请求;根据记录的所述第一HTTP请求模拟客户端程序;通过模拟的所述客户端程序向所述目标业务系统发送第二HTTP请求,接收所述目标业务系统根据所述第二HTTP请求提供的第一反馈信息,所述第二HTTP请求与记录的所述第一HTTP请求具有相同的请求规则且携带相同的请求内容;对所述第一反馈信息进行动态嗅探以提取所述目标业务系统下的业务数据。通过本发明专利技术的技术方案,无需与业务系统的供应商进行协调以更改业务系统的代码,即可采集业务系统下的业务数据。

A Data Acquisition Method, Device, Readable Media and Electronic Equipment

The invention discloses a data acquisition method, device, readable medium and electronic equipment. The method includes: monitoring and recording HTTP requests of the first hypertext transmission protocol sent by the designated terminal to the target business system; simulating the client program according to the first HTTP requests recorded; sending the second HTTP requests to the target business system through the simulated client program, and receiving them. Receiving the first feedback information provided by the target business system according to the second HTTP request, the second HTTP request has the same request rules and carries the same request content as the first recorded HTTP request, and dynamically sniffing the first feedback information to extract the business data under the target business system. According to the technical scheme of the invention, the business data under the business system can be collected without coordinating with the supplier of the business system to change the code of the business system.

【技术实现步骤摘要】
一种数据采集方法、装置、可读介质及电子设备
本专利技术涉及计算机
,尤其涉及一种数据采集方法、装置、可读介质及电子设备。
技术介绍
随着计算机应用技术的发展,各业务机构(比如,医疗机构)通常会部署多个用于实现不同业务的业务系统(比如,放射信息管理系统、电子病历系统、医学影像存档与通信系统),各业务系统实现相应的业务时,可产生不同的业务数据。为了满足大数据研究需求或实现不同业务系统之间进行数据互通,需要对业务系统下的业务数据进行采集。目前,由于各业务系统可能采用不同的开发语言,通常需要与业务系统的供应商进行协调,更改原业务系统的代码以向外部开放提供业务数据的数据交互接口,后续则可通过调用开放的数据交互接口对业务系统下的业务数据进行采集。当业务系统的供应商不同意开放数据交互接口时,则无法对业务系统下的业务数据进行采集。
技术实现思路
本专利技术提供一种数据采集方法、装置、可读介质及电子设备,无需与业务系统的供应商进行协调以更改业务系统的代码,即可采集业务系统下的业务数据。第一方面,本专利技术提供了一种数据采集方法,包括:监听并记录指定终端向目标业务系统发送的第一HTTP(HyperTextTransferProtocol,超文本传输协议)请求;根据记录的所述第一HTTP请求模拟客户端程序;通过模拟的所述客户端程序向所述目标业务系统发送第二HTTP请求,接收所述目标业务系统根据所述第二HTTP请求提供的第一反馈信息,所述第二HTTP请求与记录的所述第一HTTP请求具有相同的请求规则且携带相同的请求内容;对所述第一反馈信息进行动态嗅探以提取所述目标业务系统下的业务数据。优选地,所述对所述第一反馈信息进行动态嗅探以提取所述目标业务系统下的业务数据,包括:对所述第一反馈信息进行动态嗅探以确定所述第一反馈信息中承载数据的至少一个下级URL(UniformResourceLocator,统一资源定位符);通过模拟的所述客户端程序向所述目标业务系统发送携带所述下级URL的第三HTTP请求,接收所述目标业务系统根据所述第三HTTP请求提供的第二反馈信息;对所述第二反馈信息进行动态嗅探以提取所述第二反馈信息中携带的所述目标业务系统下的业务数据。优选地,还包括:预先设置最小延迟时间和最大延迟时间;则,所述向所述目标业务系统发送携带所述下级URL的第三HTTP请求,包括:A1、从确定的各个所述下级URL中选择一个未被选择过的所述下级URL;A2、通过模拟的所述客户端程序向所述目标业务系统发送携带选择的所述下级URL的第三HTTP请求;A3、检测是否存在未被选择过的所述下级URL,如果是,则执行A4;否则,结束当前流程;A4、生成不小于所述最小延迟时间且不大于所述最大延迟时间的随机延迟时间,并在所述随机延迟之间之后执行A1。优选地,还包括:根据预设的至少一个过滤字段对提取的所述业务数据进行数据清洗。优选地,还包括:利用进行数据清洗后的所述业务数据形成对应于所述下级URL的XML文件。优选地,所述监听并记录指定终端向目标业务系统发送的第一HTTP请求,包括:监听指定终端通过其网卡发出的HTTP请求;检测监听的所述HTTP请求是否携带指定关键字,若是,则将所述HTTP请求记录为向目标业务系统发送的第一HTTP请求。优选地,还包括:预先设置并存储对应于所述目标业务系统的用户登录信息;在接收到所述目标业务系统发送的验证请求时,接收第三方业务系统提供的验证信息,并将所述用户登录信息及所述验证信息发送至所述目标业务系统。第二方面,本专利技术提供了一种数据采集装置,包括:监听处理模块,用于监听并记录指定终端向目标业务系统发送的第一HTTP请求;信息获取模块,用于根据记录的所述第一HTTP请求模拟客户端程序;通过模拟的所述客户端程序向所述目标业务系统发送第二HTTP请求,接收所述目标业务系统根据所述第二HTTP请求提供的第一反馈信息,所述第二HTTP请求与记录的所述第一HTTP请求具有相同的请求规则且携带相同的请求内容;数据提取模块,用于对所述第一反馈信息进行动态嗅探以提取所述目标业务系统下的业务数据。第三方面,本专利技术提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的方法。第四方面,本专利技术提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。本专利技术提供了一种数据采集方法、装置、可读介质及电子设备,每个业务系统通常向特定的用户群体开放,比如,医疗机构的放射信息管理系统通常仅向医疗机构中放射科的医生开放,具体为特定的用户可触发部署在指定终端(比如,部署在放射科的个人计算机)上的浏览器(也可以是与业务系统相对应的其他计算机应用程序),通过指定终端向业务系统发送对应的HTTP请求,进而通过浏览器显示业务系统根据其接收的HTTP请求提供的反馈信息所对应的应用程序界面,而该反馈信息携带目标业务系统下的业务数据;本专利技术提供的技术方案通过对指定终端向目标业务系统发送的第一HTTP请求进行监听并记录,然后则可根据第一HTTP请求模拟出可以与目标业务系统进行通信的客户端程序,即模拟的客户端程序可以形成并发送能够被目标业务系统响应的、与记录的第一HTTP请求具有相同请求规则的HTTP请求,进一步通过模拟的客户端程序向目标业务系统发送与记录的第一HTTP请求具有相同请求内容的第二HTTP请求之后,模拟的客户端程序即可接收目标业务系统根据第二HTTP请求提供的第一反馈信息,该第一反馈信息与目标业务系统根据该第一HTTP请求向指定终端提供的反馈信息应完全相同,因此,后续仅需要对客户端程序接收的第一反馈信息进行动态嗅探,即可提取到目标业务系统下的业务数据。综上可见,本专利技术实施例提供的技术方案,无需与业务系统的供应商进行协调以更改业务系统的代码,即可采集业务系统下的业务数据。上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明为了更清楚地说明本专利技术实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种数据采集方法的流程示意图;图2为本专利技术一实施例中通过XPath描述的反馈信息的组织结构示意图;图3为本专利技术一实施例提供的一种数据采集装置的结构示意图;图4为本专利技术一实施例提供的一种电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本专利技术的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种数据采集方法,包括:步骤101,监听并记录指定终端向目标业务系统发送的第一超文本传输协议HTTP请求;步骤102,根据记录的所述第一HTTP请求模拟客户端程序本文档来自技高网...

【技术保护点】
1.一种数据采集方法,其特征在于,包括:监听并记录指定终端向目标业务系统发送的第一超文本传输协议HTTP请求;根据记录的所述第一HTTP请求模拟客户端程序;通过模拟的所述客户端程序向所述目标业务系统发送第二HTTP请求,接收所述目标业务系统根据所述第二HTTP请求提供的第一反馈信息,所述第二HTTP请求与记录的所述第一HTTP请求具有相同的请求规则且携带相同的请求内容;对所述第一反馈信息进行动态嗅探以提取所述目标业务系统下的业务数据。

【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:监听并记录指定终端向目标业务系统发送的第一超文本传输协议HTTP请求;根据记录的所述第一HTTP请求模拟客户端程序;通过模拟的所述客户端程序向所述目标业务系统发送第二HTTP请求,接收所述目标业务系统根据所述第二HTTP请求提供的第一反馈信息,所述第二HTTP请求与记录的所述第一HTTP请求具有相同的请求规则且携带相同的请求内容;对所述第一反馈信息进行动态嗅探以提取所述目标业务系统下的业务数据。2.根据权利要求1所述的数据采集方法,其特征在于,所述对所述第一反馈信息进行动态嗅探以提取所述目标业务系统下的业务数据,包括:对所述第一反馈信息进行动态嗅探以确定所述第一反馈信息中承载数据的至少一个下级统一资源定位符URL;通过模拟的所述客户端程序向所述目标业务系统发送携带所述下级URL的第三HTTP请求,接收所述目标业务系统根据所述第三HTTP请求提供的第二反馈信息;对所述第二反馈信息进行动态嗅探以提取所述第二反馈信息中携带的所述目标业务系统下的业务数据。3.根据权利要求2所述的数据采集方法,其特征在于,还包括:预先设置最小延迟时间和最大延迟时间;则,所述通过模拟的所述客户端程序向所述目标业务系统发送携带所述下级URL的第三HTTP请求,包括:A1、从确定的各个所述下级URL中选择一个未被选择过的所述下级URL;A2、通过模拟的所述客户端程序向所述目标业务系统发送携带选择的所述下级URL的第三HTTP请求;A3、检测是否存在未被选择过的所述下级URL,如果是,则执行A4;否则,结束当前流程;A4、生成不小于所述最小延迟时间且不大于所述最大延迟时间的随机延迟时间,并在所述随机延迟之间之后执行A1。4.根据权利要求2所述的数据采集方法...

【专利技术属性】
技术研发人员:李海威马航洲朴红吉
申请(专利权)人:医渡云北京技术有限公司金色熊猫有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1