多源异构数据融合汇聚方法技术

技术编号:26259287 阅读:70 留言:0更新日期:2020-11-06 17:53
一种多源异构数据融合汇聚方法,通过对不同数据源的访问方式进行归纳总结,对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口;为包装后的数据接口生成配置文件,用于配置数据接口访问规则;根据要求配置数据抽取规则,通过主机的资源使用率选择利用率低的主机执行数据抽取任务;根据配置的规则对数据进行进一步处理,符合侦查情报特色需求;将抽取处理后的数据发送到中间库进行数据去重处理;最后将处理后的数据汇聚到目标库中,根据指定时间内来源数据源数据总量和目标数据源总量是否一致,确定数据抽取任务是否执行成功。

【技术实现步骤摘要】
多源异构数据融合汇聚方法
本专利技术涉及情报侦查数据融合领域,特别是一种多源异构数据融合汇聚方法。
技术介绍
情报侦查系统、业务系统由于建设时间不同、技术发展程度不同,导致数据标准不统一、字段类型不一致、数据质量不过关、数据库技术不统一等诸多问题;系统间数据分散,信息孤岛现象普遍存在,无法形成情报数据合力。线索关联度不高、数据使用复杂,往往无从下手,同时各系统之间同类数据无法统一,为了对某一种类或某个字段对应的数据进行比对分析处理和数据分析处理。往往需要横跨多个系统。为了破解此难题,目前传统的做法是是使用etl工具对数据进行综合治理,根据来源数据的特点和目标结构直接做映射,汇聚多个数据来源的数据,在汇聚数据的基础上对汇聚数据进行二次处理。该技术手段虽然一定程度解决了数据融合问题,部分解决了自动化抽取、清洗、导入的问题,但是该方案的设计思路并没有结合情报侦查业务需求,无法与布控比对、数据标签、情报发现等侦查工作模式紧密融合,同时ETL工具的数据汇聚任务往往由数据运维人员指定运行主机,人工参与程度高,很难满足时效性问题,对于通道队列类数据,本文档来自技高网...

【技术保护点】
1.一种多源异构数据融合汇聚方法,其特征在于,包括以下具体步骤:/nS1、分类归纳数据源类型,其中包括关系性数据源,非关系性数据源,文件类数据源,关系性数据源;/nS2、对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口,访问接口分为关系型数据接口、非关系型数据接口、文件型数据接口、实时队列数据接口四大类接口插件;/nS3、根据不同类型接口访问方式,对外提供相关配置信息,包括数据源的地址、数据源账密、数据格式、数据处理方式、任务名;/nS4、定义数据抽取的时间规则,规则包括时间规则和抽取规则,时间规则包括年,月,周,日,时,分,秒;抽取规则包括增量...

【技术特征摘要】
1.一种多源异构数据融合汇聚方法,其特征在于,包括以下具体步骤:
S1、分类归纳数据源类型,其中包括关系性数据源,非关系性数据源,文件类数据源,关系性数据源;
S2、对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口,访问接口分为关系型数据接口、非关系型数据接口、文件型数据接口、实时队列数据接口四大类接口插件;
S3、根据不同类型接口访问方式,对外提供相关配置信息,包括数据源的地址、数据源账密、数据格式、数据处理方式、任务名;
S4、定义数据抽取的时间规则,规则包括时间规则和抽取规则,时间规则包括年,月,周,日,时,分,秒;抽取规则包括增量抽取、全量抽取、实时抽取;
S5、根据配置文件和数据抽取规则生成数据抽取任务;
S6、数据抽取任务在所有部署数据源接口插件的主机的列表内,选择资源利用率最低的主机来执行数据抽取任务;
S7、数据抽取任务抽取的数据需要先抽取到中间库
S8、数据抽取到中间库的过程中,数据抽取任务根据数据主键确定数据是否唯一存在;
S9、数据抽取任务发现本条数据不唯一,对上一条重复数据的版本号修改为数据插入时间和主键组合的唯一值;
S10、数据抽取任务发现本条数据不重复,则直接插入本条数据,将数据的版本号标记为01,同时记录数据插入时间;
S11、将中间库中不同来源的数据抽取到目标库中,并将版本不为01的数据抽取到目标库对应的历史数据表中;
S12、根据数据抽取任务的开始时间和截止时间统计来源数据的数据总量和目标数据的数据总量,根据数据总量确定数据抽取任务是否执行成功。


2.根据权利要求1所述的多源异构数据融合汇聚方法,其特征在于,所述步骤S2中,所述实时队列数据获取插件能够获取kafka、redis、activemq队列的数据。


3.根据权利要求1所述的多源异构数据融合汇聚方法,其特征在于,所述步骤S2中,所述关系型数据接口插件内包含oracle数据源、mysql数据源、postgre数据源、sybase数据源;非关系型数据接口插件内包含mongodb数据源、hbase数据源、elasticsearch数据源;文件型数据接口插件内包含本地文件数据源、ftp文件数据源、hdfs文件数据源;采用java开发技术使用策略模式和模板设计方法对几大类数据接口插件进行封装,...

【专利技术属性】
技术研发人员:龚波苏学武水军刘怀春唐飞李天琪
申请(专利权)人:珠海市新德汇信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1