多源数据比对和一致性处理方法、系统、装置及介质制造方法及图纸

技术编号:33428200 阅读:27 留言:0更新日期:2022-05-19 00:19
本发明专利技术公开了多源数据比对和一致性处理方法、系统、装置及介质,属于数据处理技术领域,要解决的技术问题为如何对多源数据进行比对和一致性处理,去除重复和异常的数据。包括如下步骤:通过数据抽取工具将多源数据汇聚;通过预设的数据清洗规则、规则引擎、数据标准以及数据质量进行数据清洗,去除重复和异常的数据,得到清洗后数据;对于清洗后数据,基于预设的数据比对规则、通过数据比对规则引擎进行数据比对,并通过标签管理核对数据比对的质量,得到比对后数据;对于比对后数据,通过预设的数据标准化规范以及转换规则进行数据一致性处理,形成基础数据,并基于异常数据处理规则进行异常数据汇总,生成异常数据集。生成异常数据集。生成异常数据集。

【技术实现步骤摘要】
多源数据比对和一致性处理方法、系统、装置及介质


[0001]本专利技术涉及数据处理
,具体地说是多源数据比对和一致性处理方法、系统、装置及介质。

技术介绍

[0002]在大数据计算和云处理时代,数据来源渠道越来越多,数据比对和一致性处理已经成为常态化。
[0003]当前的数据比对和一致性处理基本上都是基于一种数据源进行的,使用一种数据源经过业务规则进行手动和批量数据处理,形成和基础数据一致的数据结构数据。
[0004]多种数据源时,会拆解成多个单一数据源来进行数据处理,形成各自的基础数据,在将这些基础数据进行数据比对和处理。这种处理方式容易造成数据重复。
[0005]如何对多源数据进行比对和一致性处理,去除重复和异常的数据,是需要解决的技术问题。

技术实现思路

[0006]本专利技术的技术任务是针对以上不足,提供多源数据比对和一致性处理方法、系统、装置及介质,来解决如何对多源数据进行比对和一致性处理,去除重复和异常的数据的技术问题。
[0007]第一方面,本专利技术的多源数据比对和一致性处理本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.多源数据比对和一致性处理方法,其特征在于包括如下步骤:通过数据抽取工具将多源数据汇聚,得到初始汇聚数据;对于初始汇聚数据,通过预设的数据清洗规则、规则引擎、数据标准以及数据质量进行数据清洗,去除重复和异常的数据,得到清洗后数据;对于清洗后数据,基于预设的数据比对规则、通过数据比对规则引擎进行数据比对,并通过标签管理核对数据比对的质量,得到比对后数据;对于比对后数据,通过预设的数据标准化规范以及转换规则进行数据一致性处理,形成基础数据,并基于异常数据处理规则进行异常数据汇总,生成异常数据集。2.根据权利要求1所述的多源数据比对和一致性处理方法,其特征在于通过数据抽取工具从将关系型数据库、内存数据库、分布式文件、搜索引擎ES、对象存储和异构数据库中抽取数据,以实现多源数据汇聚。3.根据权利要求1所述的多源数据比对和一致性处理方法,其特征在于所述数据抽取工具为开源kettle。4.根据权利要求1所述的多源数据比对和一致性处理方法,其特征在于所述数据比对规则为多个,对于所述多个数据比对规则,根据规则的优先级及逆行多批次数据比对,并基于标签管理中标签提取和标签图谱核对数据比对的质量。5.多源数据比对和一致性处理系统,通过如权利要求1

4任一项所述多源数据比对和一致性处理进行多源数据的比对和一致性处理,所述系统包括:规则配置模块,所述规则配置模块通过规则配置界面对外交互,用于配置规则,包括配置数据清洗规则、数据标准、数据质量、数据比对规则、优先级、标签管理、数据标准化规范以及转换规则;数据抽取工具,所述数据抽取工具用于将多源数据汇聚,得到初始汇聚数据...

【专利技术属性】
技术研发人员:蒋召宝左立峰赵绍祥
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1