一种面向跨域信息系统的实时按需数据汇聚方法及系统技术方案

技术编号:26376284 阅读:21 留言:0更新日期:2020-11-19 23:45
本发明专利技术提供了一种面向跨域信息系统的实时按需数据汇聚系统及方法,包括:部署在目的信息系统中的汇聚端和部署在多个源信息系统中的多个源端;所述汇聚端连接器与所述源端连接器建立虚拟局域网隧道相互通信,形成覆盖网络;所述汇聚器收集目的信息系统内各种应用对源数据的汇聚需求,形成汇聚规则;将源信息系统中满足汇聚规则的数据进行汇聚;所述过滤器根据汇聚器的汇聚规则,对源信息系统中的数据执行过滤操作,将符合应用需求的数据传输至目的信息系统中的汇聚器,汇聚器提供接口给上层应用获取数据;本发明专利技术提出一个能动态定制数据汇聚需求、数据传输延迟毫秒级且易于扩展和更新的实时跨域的数据汇聚框架。

【技术实现步骤摘要】
一种面向跨域信息系统的实时按需数据汇聚方法及系统
本专利技术涉及跨域分布式系统,具体地,涉及一种面向跨域信息系统的实时按需数据汇聚方法及系统,更为具体地,涉及基于发布/订阅模式的实时按需数据汇聚框架及系统。
技术介绍
在当前的信息化社会中,各机构都有自己的信息化系统。随着当前数据分析技术的快速发展和应用逻辑的丰富,对跨机构、跨系统的各种类型数据的需求越来越强烈。然而各机构建设的业务系统都是为了满足自身的业务需求,建设时间早,并没有考虑后续的跨机构合作共享,缺少总体的设计。数据汇聚旨在解决当前各个独立系统的分布性,异构性和自治性等难点,克服大数据时代数据的Velocity、Volume和Variety挑战。整合多源的,多个分离独立的系统中的数据,以满足高层的数据分析、综合业务管理、公共信息服务和政府政策决策支持的需要。传统的数据汇聚采用的是面向服务的架构(Service-OrientedArchitecture,SOA),例如NetworkonTerminalArchitecture。该方法需要开发专有的软件或者接口(通常为HTTP,FTP)来进行源信息系统和目的信息系统之间的数据传输。这样的架构能规避分布式的独立系统的异构问题,但是有三个重要的缺陷:一、不同安全域的软件直接通信会增加网络管控和信息泄露的风险;二、不能有效应对分布、自治、异构的信息系统和大数据3V特性提出的实时性和灵活性方面的挑战;三、成本高,需要安排人员开发专有的server端和client端软件和接口。专利文献CN104133831B(申请号:201410065334.7)公开了一种跨域数据联接系统、跨域数据联接系统及节点,所述系统采用分布式系统架构,运行于HDFS集群节点上,不同的HDFS集群之间采用网络通道连接,每个集群开放一个节点提供对外文件存取服务,在HDFS的每个节点上维护一个系统进程,HDFS的对外服务节点接受跨HDFS的数据联接请求,并将结果最终汇聚到接收请求的节点,最终获得联接结果。本专利技术克服在多安全域信息系统环境下数据汇聚的难点,专利技术了一种跨域实时按需数据汇聚框架。在安全性的基础上,解决了数据汇聚数据量大、数据产生速率高和数据种类多的问题。本专利技术公开了一种面向跨域信息系统的实时按需数据汇聚框架及系统。随着当前信息化的进一步普及,跨部门、跨组织的实时信息合作越来越重要,例如公安部门反电信诈骗。因为各组织、各部门信息系统之间的分布性、自治性和异构性,以及大数据的大规模、高速率和多种类特性,对数据汇聚方法提出了实时性、按需性和灵活性的需求。目前还没有提出能满足以上需求的数据汇聚框架及系统。本专利技术提出一个能动态定制数据汇聚需求、数据传输延迟毫秒级且易于扩展和更新的实时跨域的数据汇聚框架,并给出了该框架的设计细节以及具体实现机制。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种面向跨域信息系统的实时按需数据汇聚系统及方法。根据本专利技术提供的一种面向跨域信息系统的实时按需数据汇聚系统,包括:部署在目的信息系统中的汇聚端和部署在多个源信息系统中的多个源端;所述源端包括过滤器和连接器;所述汇聚端包括连接器、汇聚器和配置器;所述汇聚端连接器与所述源端连接器建立虚拟局域网隧道相互通信,形成覆盖网络;所述汇聚器收集目的信息系统内各种应用对源数据的汇聚需求,形成汇聚规则,并将汇聚规则分发给所有源端的过滤器;将源信息系统中满足汇聚规则的数据进行汇聚;所述过滤器根据汇聚器的汇聚规则,对源信息系统中的数据执行过滤操作,将符合应用需求的数据传输至目的信息系统中的汇聚器,汇聚器提供接口给上层应用获取数据;所述汇聚端的配置器提供可视化的监控界面,从而检测各个源信息系统内过滤器的工作状态、性能和汇聚系统覆盖网络的状态。优选地,所述覆盖网络能够屏蔽掉底层各信息系统局域网设置,在防火墙允许的情况下,实现跨安全域的位于不同局域网主机间相互通信。优选地,所述过滤器采用基于内容的订阅/分发模式中的匹配算法实现过滤器的过滤功能。优选地,所述配置器还包括:通过配置器配置部署新的过滤器或更新过滤器。优选地,所述覆盖网络包括基于开源N2N虚拟局域网技术实现汇聚系统的覆盖网络;所述N2N虚拟局域网包括super-node程序和edge-node程序;在目的信息系统和源信息系统中的接入点服务器上部署edge-node程序形成覆盖网络;在目的信息系统中部署super-node程序协调辅助edge-node程序覆盖网络。优选地,所述汇聚器通过Kafka集群实现实时按需数据汇聚;所述Kafka集群包括源Kafka集群和目的Kafka集群;所述目的Kafka集群负责进行应用数据汇聚规则和满足过滤条件的数据收集与分发;所述源Kafka集群包括汇聚系统本身已经运行的Kafka集群。优选地,所述过滤器包括基于源Kafka集群和目的Kafka集群的streamAPI分别实现对源数据和数据汇聚规则的实时获取;基于OpIndex算法和PhSIH并行化机制实现对源数据的过滤,在过滤后将匹配的源数据发往对应的应用。优选地,所述过滤器采用基于内容的订阅和/或分发模式中的匹配算法实现过滤器的过滤功能,过滤后的数据记录和所有的目的应用组合为一条消息发送至汇聚器,在汇聚器中新增一个解码程序组件,解码程序组件将过滤器发送过来的消息解构为数据记录和对当前数据记录有汇聚需求的应用列表,将当前数据记录发送至有汇聚需求的应用。优选地,所述配置器包括通过配置器查看汇聚系统信息,通过配置器输入新过滤器的配置参数,配置器根据输入的新过滤器的配置参数,生成新的过滤器容器并按指令在远程机器上部署新的过滤器容器;在汇聚系统扩容新的源信息系统时,在安装好接入点主机的基础上,通过配置器自动化部署好过滤器,实现汇聚系统的扩展。根据本专利技术提供的一种面向跨域信息系统的实时按需数据汇聚系统,运用上述面向跨域信息系统的实时按需数据汇聚系统执行如下步骤:步骤M1:汇聚端连接器和源端连接器建立虚拟局域网隧道相互通信,形成覆盖网络;步骤M2:汇聚端收集目的信息系统内各种应用对源数据的汇聚需求,形成汇聚规则,并分发给所有源端的过滤器;步骤M3:源端过滤器根据从汇聚器接收到的数据汇聚规则,对源信息系统中的数据执行过滤操作,并将符合应用需求的数据传输至目的信息系统中的汇聚器;步骤M4:汇聚器提供接口给上层应用以获取符合应用需求的数据。与现有技术相比,本专利技术具有如下的有益效果:1、本专利技术提出的汇聚框架能实时汇聚源数据,能够实现毫秒级的数据汇聚;目的系统能定制其数据汇聚规则,通过在源端进行数据过滤,减少不必要的数据传输,有效降低网络负载压力;汇聚规则从定义到生效平均只需要2毫秒左右;利用覆盖网络技术和容器技术,实现了框架的快速扩展和组件更新,加入一个新的源系统平均只需要1秒左右;2、本专利技术提出的数据汇聚框架充分考虑了数据汇聚的本文档来自技高网
...

【技术保护点】
1.一种面向跨域信息系统的实时按需数据汇聚系统,其特征在于,包括:部署在目的信息系统中的汇聚端和部署在多个源信息系统中的多个源端;/n所述源端包括过滤器和连接器;/n所述汇聚端包括连接器、汇聚器和配置器;/n所述汇聚端连接器与所述源端连接器建立虚拟局域网隧道相互通信,形成覆盖网络;/n所述汇聚器收集目的信息系统内各种应用对源数据的汇聚需求,形成汇聚规则,并将汇聚规则分发给所有源端的过滤器;将源信息系统中满足汇聚规则的数据进行汇聚;/n所述过滤器根据汇聚器的汇聚规则,对源信息系统中的数据执行过滤操作,将符合应用需求的数据传输至目的信息系统中的汇聚器,汇聚器提供接口给上层应用获取数据;/n所述汇聚端的配置器提供可视化的监控界面,从而检测各个源信息系统内过滤器的工作状态、性能和汇聚系统覆盖网络的状态。/n

【技术特征摘要】
1.一种面向跨域信息系统的实时按需数据汇聚系统,其特征在于,包括:部署在目的信息系统中的汇聚端和部署在多个源信息系统中的多个源端;
所述源端包括过滤器和连接器;
所述汇聚端包括连接器、汇聚器和配置器;
所述汇聚端连接器与所述源端连接器建立虚拟局域网隧道相互通信,形成覆盖网络;
所述汇聚器收集目的信息系统内各种应用对源数据的汇聚需求,形成汇聚规则,并将汇聚规则分发给所有源端的过滤器;将源信息系统中满足汇聚规则的数据进行汇聚;
所述过滤器根据汇聚器的汇聚规则,对源信息系统中的数据执行过滤操作,将符合应用需求的数据传输至目的信息系统中的汇聚器,汇聚器提供接口给上层应用获取数据;
所述汇聚端的配置器提供可视化的监控界面,从而检测各个源信息系统内过滤器的工作状态、性能和汇聚系统覆盖网络的状态。


2.根据权利要求1所述的面向跨域信息系统的实时按需数据汇聚系统,其特征在于,所述覆盖网络能够屏蔽掉底层各信息系统局域网设置,在防火墙允许的情况下,实现跨安全域的位于不同局域网主机间相互通信。


3.根据权利要求1所述的面向跨域信息系统的实时按需数据汇聚系统,其特征在于,所述过滤器采用基于内容的订阅/分发模式中的匹配算法实现过滤器的过滤功能。


4.根据权利要求1所述的面向跨域信息系统的实时按需数据汇聚系统,其特征在于,所述配置器还包括:通过配置器配置部署新的过滤器或更新过滤器。


5.根据权利要求2所述的面向跨域信息系统的实时按需数据汇聚系统,其特征在于,所述覆盖网络包括基于开源N2N虚拟局域网技术实现汇聚系统的覆盖网络;
所述N2N虚拟局域网包括super-node程序和edge-node程序;
在目的信息系统和源信息系统中的接入点服务器上部署edge-node程序形成覆盖网络;在目的信息系统中部署super-node程序协调辅助edge-node程序覆盖网络。


6.根据权利要求1所述的面向跨域信息系统的实时按需数据汇聚系统,其特征在于,所述汇聚器通过Kafka集群实现实时按需数据汇聚;所述Kafka集群包括源...

【专利技术属性】
技术研发人员:钱诗友徐加伟薛广涛曹健
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1