System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种自动化数据元治理方法技术_技高网

一种自动化数据元治理方法技术

技术编号:39930555 阅读:6 留言:0更新日期:2024-01-08 21:47
本发明专利技术公开一种自动化数据元治理方法,涉及数据治理技术领域;梳理逻辑模型的数据元列表,获取数据元的定义的信息项,根据数据元的定义的信息项梳理英文基础词根列表,获取英文基础词根,梳理英文短语列表,获取英文短语定义的信息项;在数据建模过程中获取逻辑模型中一行属性,根据属性全文匹配数据元列表,匹配成功则使用所述数据元列表的数据元标准修改属性,匹配失败则对属性内英文进行分词,依次按照专业短语、公共短语和基础词根的优先级顺序进行分词英文匹配,循环获取逻辑模型中剩余属性,直至完成逻辑模型中属性的匹配。

【技术实现步骤摘要】

本专利技术公开一种方法,涉及数据治理,具体地说是一种自动化数据元治理方法


技术介绍

1、数据元(data element),也称为数据元素,是用一组属性描述其定义、标识、表示和允许值的数据单元,在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。

2、数据建模是发现、分析和确定数据需求的过程,通过数据模型形式来表示和传递这些数据需求。在数仓语境中,常用关系模式、多维模式进行建模。每种模式均分为三层,分别为概念模型、逻辑模型和物理模型。

3、在数据建模过程中,如遇到属性无法匹配到现有数据元时,则需要进行扩展。在扩展数据元时需要翻译英文名称和英文短名,不同人员存在对业务理解和英语水平的差异,容易导致数据元命名混乱,并会延伸到模型的属性名称混乱从而导致应用的诸多问题,并且在梳理逻辑模型时,依赖人工操作效率低、容易出错,不利于提高匹配数据元的效率。


技术实现思路

1、本专利技术针对现有技术的问题,提供一种自动化数据元治理方法,解决在梳理逻辑模型时,匹配数据元英文过程的效率低、容易出错的问题。

2、本专利技术提出的具体方案是:

3、本专利技术提供一种自动化数据元治理方法,梳理逻辑模型的数据元列表,获取数据元的定义的信息项,

4、根据数据元的定义的信息项梳理英文基础词根列表,获取英文基础词根,

5、梳理英文短语列表,获取英文短语定义的信息项,根据英文短语定义的信息项将英文短语分为专业短语和公共短语,所述专业短语仅在指定的专业领域采用,所述公共短语适用于所有领域;

6、在数据建模过程中获取逻辑模型中一行属性,根据属性全文匹配数据元列表,匹配成功则使用所述数据元列表的数据元标准修改属性,匹配失败则对属性内英文进行分词,依次按照专业短语、公共短语和基础词根的优先级顺序进行分词英文匹配,若匹配成功则跳过较低优先级列表,若无法匹配则将分词加入待处理列表,

7、将所有分词匹配完成后,将各分词形成英文和英文短名,从逻辑模型中获取类型和长度,新增定义数据元标准,利用新增的数据元标准更新逻辑模型中属性的英文名称,

8、循环获取逻辑模型中剩余属性,直至完成逻辑模型中属性的匹配。

9、进一步,所述的一种自动化数据元治理方法中所述梳理逻辑模型的数据元列表,获取数据元的定义的信息项,包括:

10、获取信息项,所述信息项包括编号、分组信息、名称、英文名、英文短名、类型和长度,所述编号表示数据元编号,所述分组信息表示数据元分组信息,所述名称表示数据元中文命名,所述英文名和英文短名均表示数据元英文命名,所述类型表示数据元类型,所述长度表示数据元长度。

11、进一步,所述的一种自动化数据元治理方法中所述梳理英文基础词根列表,包括:

12、获取英文基础词根列表的信息项,所述信息项包括编号、英文、英文缩写、中文和中文同义词,所述编号表示英文词根编号,所述英文表示英文词根,所述英文缩写表示对英文词根的缩写,所述中文表示英文词根对应的中文,所述中文同义词表示英文词根对应的中文同义词。

13、进一步,所述的一种自动化数据元治理方法中所述梳理英文短语列表,获取英文短语定义的信息项,包括:

14、获取的信息项包括编号、英文、英文缩写、中文和中文同义词,所述编号表示英文短语编号,所述英文表示英文短语,所述英文缩写表示对英文短语的缩写,所述中文表示英文短语对应的中文,所述中文同义词表示英文短语对应的中文同义词。

15、进一步,所述的一种自动化数据元治理方法中在数据建模过程中初始化数据元列表、英文基础词根列表和英文短语列表,获取逻辑模型中一行属性,包括:

16、根据属性全文匹配数据元列表,匹配成功则使用所述数据元列表的数据元标准修改属性,匹配失败则对属性内英文进行分词,

17、根据分词匹配英文的专业短语,若匹配成功则跳过公共短语和基础词根匹配,若匹配失败则根据分词匹配英文的公共短语,若匹配成功则跳过基础词根匹配,若匹配失败则根据分词匹配英文的基础词根,若匹配成功则完成分词匹配,若无法匹配则将分词加入到待处理列表。

18、本专利技术还提供一种自动化数据元治理装置,梳理模块和匹配模块,

19、梳理模块梳理逻辑模型的数据元列表,获取数据元的定义的信息项,

20、根据数据元的定义的信息项梳理英文基础词根列表,获取英文基础词根,

21、梳理英文短语列表,获取英文短语定义的信息项,根据英文短语定义的信息项将英文短语分为专业短语和公共短语,所述专业短语仅在指定的专业领域采用,所述公共短语适用于所有领域;

22、匹配模块在数据建模过程中获取逻辑模型中一行属性,根据属性全文匹配数据元列表,匹配成功则使用所述数据元列表的数据元标准修改属性,匹配失败则对属性内英文进行分词,依次按照专业短语、公共短语和基础词根的优先级顺序进行分词英文匹配,若匹配成功则跳过较低优先级列表,若无法匹配则将分词加入待处理列表,

23、将所有分词匹配完成后,将各分词形成英文和英文短名,从逻辑模型中获取类型和长度,新增定义数据元标准,利用新增的数据元标准更新逻辑模型中属性的英文名称,

24、循环获取逻辑模型中剩余属性,直至完成逻辑模型中属性的匹配。

25、进一步,所述的一种自动化数据元治理装置中所述梳理模块梳理逻辑模型的数据元列表,获取数据元的定义的信息项,包括:

26、获取信息项,所述信息项包括编号、分组信息、名称、英文名、英文短名、类型和长度,所述编号表示数据元编号,所述分组信息表示数据元分组信息,所述名称表示数据元中文命名,所述英文名和英文短名均表示数据元英文命名,所述类型表示数据元类型,所述长度表示数据元长度。

27、进一步,所述的一种自动化数据元治理装置中所述梳理模块梳理英文基础词根列表,包括:

28、获取英文基础词根列表的信息项,所述信息项包括编号、英文、英文缩写、中文和中文同义词,所述编号表示英文词根编号,所述英文表示英文词根,所述英文缩写表示对英文词根的缩写,所述中文表示英文词根对应的中文,所述中文同义词表示英文词根对应的中文同义词。

29、进一步,所述的一种自动化数据元治理装置中所述梳理模块梳理英文短语列表,获取英文短语定义的信息项,包括:

30、获取的信息项包括编号、英文、英文缩写、中文和中文同义词,所述编号表示英文短语编号,所述英文表示英文短语,所述英文缩写表示对英文短语的缩写,所述中文表示英文短语对应的中文,所述中文同义词表示英文短语对应的中文同义词。

31、进一步,所述的一种自动化数据元治理装置中匹配模块在数据建模过程中初始化数据元列表、英文基础词根列表和英文短语列表,获取逻辑模型中一行属性,包括:

32本文档来自技高网...

【技术保护点】

1.一种自动化数据元治理方法,其特征是梳理逻辑模型的数据元列表,获取数据元的定义的信息项,

2.根据权利要求1所述的一种自动化数据元治理方法,其特征是所述梳理逻辑模型的数据元列表,获取数据元的定义的信息项,包括:

3.根据权利要求1所述的一种自动化数据元治理方法,其特征是所述梳理英文基础词根列表,包括:

4.根据权利要求1所述的一种自动化数据元治理方法,其特征是所述梳理英文短语列表,获取英文短语定义的信息项,包括:

5.根据权利要求1所述的一种自动化数据元治理方法,其特征是在数据建模过程中初始化数据元列表、英文基础词根列表和英文短语列表,获取逻辑模型中一行属性,包括:

6.一种自动化数据元治理装置,其特征是梳理模块和匹配模块,

7.根据权利要求6所述的一种自动化数据元治理装置,其特征是所述梳理模块梳理逻辑模型的数据元列表,获取数据元的定义的信息项,包括:

8.根据权利要求6所述的一种自动化数据元治理装置,其特征是所述梳理模块梳理英文基础词根列表,包括:

9.根据权利要求6所述的一种自动化数据元治理装置,其特征是所述梳理模块梳理英文短语列表,获取英文短语定义的信息项,包括:

10.根据权利要求6所述的一种自动化数据元治理装置,其特征是匹配模块在数据建模过程中初始化数据元列表、英文基础词根列表和英文短语列表,获取逻辑模型中一行属性,包括:

...

【技术特征摘要】

1.一种自动化数据元治理方法,其特征是梳理逻辑模型的数据元列表,获取数据元的定义的信息项,

2.根据权利要求1所述的一种自动化数据元治理方法,其特征是所述梳理逻辑模型的数据元列表,获取数据元的定义的信息项,包括:

3.根据权利要求1所述的一种自动化数据元治理方法,其特征是所述梳理英文基础词根列表,包括:

4.根据权利要求1所述的一种自动化数据元治理方法,其特征是所述梳理英文短语列表,获取英文短语定义的信息项,包括:

5.根据权利要求1所述的一种自动化数据元治理方法,其特征是在数据建模过程中初始化数据元列表、英文基础词根列表和英文短语列表,获取逻辑模型中一行属性,包括:

...

【专利技术属性】
技术研发人员:刘明磊王彦功刘顼朱雄飞王飞张悦
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1