System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多源多库的流批一体化主数据治理方法、装置及可读介质制造方法及图纸_技高网

基于多源多库的流批一体化主数据治理方法、装置及可读介质制造方法及图纸

技术编号:40003163 阅读:9 留言:0更新日期:2024-01-09 04:14
本发明专利技术公开了一种基于多源多库的流批一体化主数据治理方法、装置及可读介质,涉及大数据领域,该方法包括:获取多个数据源中的至少一个数据源的原始数据;对原始数据进行数据清洗,得到标准化数据;基于标准化数据构建主数据分析矩阵,根据主数据分析矩阵分析识别得到基础数据;根据数据需求和数据标准定义主数据表结构,根据基础数据构建概念数据模型,根据概念数据模型和主数据表结构扩展得到逻辑数据模型,基于逻辑数据模型建立物理数据模型,对物理数据模型生成的数据进行交叉验证,得到主数据,可以提升数据的关联性和可用性,提升数据处理效率,提高组织的战略协同力。

【技术实现步骤摘要】

本专利技术涉及大数据领域,具体涉及一种基于多源多库的流批一体化主数据治理方法、装置及可读介质


技术介绍

1、随着互联网和移动互联网的飞速发展,企业业务扩展,业务系统越建越多,数据量高速膨胀却以“数据孤岛”形式存储,与此同时伴随着业务系统的交叉,会出现一些公共的数据,也会被不同的业务系统调用,调用关系越来越复杂,会出现数据“查找难、选择难、应用难”等问题。为解决该问题,逐渐衍生出主数据的概念,主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息,主数据具有超越部门、超越流程、超越主题、超越系统、超越技术的特征,这使得各自为政的信息系统再共享整合过程中有据可循、有标可依。

2、各行各业都积累了海量的业务数据,对数据的需求也越来越高,从而使大数据处理架构不断演进,从传统的经典离线架构到lambda架构、kappa架构、再到流批一体化架构,以解决数据链路冗余、数据口径不一致问题。但是仍然存在针对多部门、跨部门协同业务系统间交互困难和数据多头管理不一致问题,以及对海量数据处理要求的实时性、准确性、一致性等要求。因此亟需一种主数据治理方法能够解决以上技术问题。


技术实现思路

1、针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基于多源多库的流批一体化主数据治理方法、装置及可读介质,来解决以上
技术介绍
部分提到的技术问题。

2、第一方面,本专利技术提供了一种基于多源多库的流批一体化主数据治理方法,包括以下步骤:

3、获取多个数据源中的至少一个数据源的原始数据;

4、对原始数据进行数据清洗,得到标准化数据;

5、基于标准化数据构建主数据分析矩阵,根据主数据分析矩阵分析识别得到基础数据;

6、根据数据需求和数据标准定义主数据表结构,根据基础数据构建概念数据模型,根据概念数据模型和主数据表结构扩展得到逻辑数据模型,基于逻辑数据模型建立物理数据模型,对物理数据模型生成的数据进行交叉验证,得到主数据。

7、作为优选,获取多个数据源中的至少一个数据源的原始数据,具体包括:

8、通过中心辐射型数据采集模式对不同数据源的至少一个数据源的原始数据进行采集并汇聚,不同数据源包括关系型数据库、消息队列数据库、列式存储数据库、面向对象数据库和文件系统,其中,关系型数据库、列式存储数据库、面向对象数据库采用批式处理或流式处理采集,消息队列数据库采用流式处理采集,文件系统采用批式处理采集。

9、作为优选,数据源采用以下方式进行评估,具体包括:

10、根据数据源的业务规则和数据情况定义数据源质量分析的维度和指标,其中,数据源质量分析的维度包括技术指标和业务指标,技术指标包括数据完整性、数据唯一性、数据有效性、数据及时性、数据合理性;业务指标包括据一致性、数据真实性、数据精准性、数据可读性、数据可用性;

11、对数据源进行质量分析,确定数据源中的数据是否满足主数据要求。

12、作为优选,对原始数据进行数据清洗,得到标准化数据,具体包括:

13、对原始数据进行过滤、去重、格式转换,得到标准化数据。

14、作为优选,基于标准化数据构建主数据分析矩阵,根据主数据分析矩阵分析识别得到基础数据,具体包括:

15、基于业务影响程度、数据共享程度、主数据管理成熟度、主数据统一难易度、需求迫切程度五个指标对标准化数据采用层次分析法建立主数据分析矩阵;

16、基于主数据分析矩阵采用几何平均法确定各个指标的权重;

17、将权重与阈值相比较,确定标准化数据是否为主数据管理范围内的基础数据。

18、作为优选,根据数据需求和数据标准定义主数据表结构,根据基础数据构建概念数据模型,根据概念数据模型和主数据表结构扩展得到逻辑数据模型,基于逻辑数据模型建立物理数据模型,对物理数据模型生成的数据进行交叉验证,得到主数据,具体包括:

19、定义主数据表结构中字段的属性,属性包括字段类型、字段字典、值域、数据规则;

20、将基础数据通过实体和实体之间的关系建立概念数据模型;

21、对概念数据模型进行合并同类数据、添加关联实体、属性调整、范式设计、数据去重且主键唯一化以及可信度计算,形成逻辑数据模型;

22、通过逻辑数据模型将逻辑抽象实体,并定义模型执行的时间和周期;

23、通过系统校验、查重、人工比对、筛查、核实手段对物理数据模型生成的数据的完整性、规范性、唯一性、一致性、准确性以及有效性进行多维度的交叉验证,得到主数据。

24、作为优选,还包括:

25、确定主数据的分发方式,分发方式包括被动分发、主动分发、交互式分发。

26、第二方面,本专利技术提供了一种基于多源多库的流批一体化主数据治理装置,包括:

27、数据获取模块,被配置为获取多个数据源中的至少一个数据源的原始数据;

28、数据清洗模块,被配置为对原始数据进行数据清洗,得到标准化数据;

29、主数据分析模块,被配置为基于标准化数据构建主数据分析矩阵,根据主数据分析矩阵分析识别得到基础数据;

30、数据建模模块,被配置为根据数据需求和数据标准定义主数据表结构,根据基础数据构建概念数据模型,根据概念数据模型和主数据表结构扩展得到逻辑数据模型,基于逻辑数据模型建立物理数据模型,对物理数据模型生成的数据进行交叉验证,得到主数据。

31、第三方面,本专利技术提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

32、第四方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

33、相比于现有技术,本专利技术具有以下有益效果:

34、(1)本专利技术提出的基于多源多库的流批一体化主数据治理方法结合多来源、多数据库以及主数据具有权威性、全局性、可拓展性等特点,选择中心辐射型采集模式,通过大数据流式计算与批式计算一体化数据采集和处理技术框架,参照数据治理规范,对不同来源的数据资源采用可信建模计算进行关联整合,交叉验证核准后,形成“标准统一、稳定易用”的主数据资源,解决数据“查找难、选择难、应用难”等问题。

35、(2)本专利技术提出的基于多源多库的流批一体化主数据治理方法能够从海量数据中采用流批一体化架构,遵循数据治理规范,形成具有高度共享性、唯一性、长期稳定性、业务关键性特点的主数据。

36、(3)本专利技术提出的基于多源多库的流批一体化主数据治理方法通过建立流批一体化主数据治理架构,使用同一套api、同一套开发范式来实现海量数据的主数据治理,进而保证主数据处理过程与结果的一致性,消除数据冗余,极大的提升数据的关联性和可本文档来自技高网...

【技术保护点】

1.一种基于多源多库的流批一体化主数据治理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,所述获取多个数据源中的至少一个数据源的原始数据,具体包括:

3.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,所述数据源采用以下方式进行评估,具体包括:

4.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,所述对所述原始数据进行数据清洗,得到标准化数据,具体包括:

5.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,所述基于所述标准化数据构建主数据分析矩阵,根据所述主数据分析矩阵分析识别得到基础数据,具体包括:

6.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,所述根据数据需求和数据标准定义主数据表结构,根据所述基础数据构建概念数据模型,根据所述概念数据模型和主数据表结构扩展得到逻辑数据模型,基于所述逻辑数据模型建立物理数据模型,对所述物理数据模型生成的数据进行交叉验证,得到主数据,具体包括:

7.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,还包括:

8.一种基于多源多库的流批一体化主数据治理装置,其特征在于,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

...

【技术特征摘要】

1.一种基于多源多库的流批一体化主数据治理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,所述获取多个数据源中的至少一个数据源的原始数据,具体包括:

3.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,所述数据源采用以下方式进行评估,具体包括:

4.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,所述对所述原始数据进行数据清洗,得到标准化数据,具体包括:

5.根据权利要求1所述的基于多源多库的流批一体化主数据治理方法,其特征在于,所述基于所述标准化数据构建主数据分析矩阵,根据所述主数据分析矩阵分析识别得到基础数据,具体包...

【专利技术属性】
技术研发人员:陈燕燕高一鸣苏雳钧陈伟李绪华王瑶刘襄雄
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1