一种自动化进行数据资产盘点的方法和系统技术方案

技术编号:31375518 阅读:11 留言:0更新日期:2021-12-15 11:10
本发明专利技术公开了一种自动化进行数据资产盘点的方法和系统,包括定义元数据标准对应的属性要求,获取数据资产元数据集合;然后定义业务系统元数据自动化抽取方法和模型,获取业务系统中元数据集合;基于深度学习算法,定义和训练元数据标准与元数据自动识别和相似度匹配模型,获取自动化匹配算法;对业务系统元数据集合使用模型进行自动化识别和匹配,实现数据资产自动化盘点,获取数据资产目录和数据资产地图。本发明专利技术通过对业务系统中的元数据集合,自动化抽取和生成待盘点数据,使用深度学习模型实现自动化的数据匹配,以此生成数据资产目录和数据资产地图,从而实现全面掌控数据资产的存储、去向和用户,实现全面掌控数据资产的价值。产的价值。产的价值。

【技术实现步骤摘要】
一种自动化进行数据资产盘点的方法和系统


[0001]本专利技术涉及数据资产盘点管理
,具体来说,涉及一种自动化进行数据资产盘点的方法和系统。

技术介绍

[0002]国内企业经过多年的数字化和信息化建设,已经拥有种类繁多、体量庞大的各类数据,并且随着业务范围、客户规模均不断扩大,所产生的数据规模也在飞速增长,这对数据资产的掌控能力提出了更高要求。数据资产盘点工作是掌控数据资产内容、明确数据资产存量和认知数据资产价值的关键环节,只有对数据进行标准化、规范化和系统化的归并、整理以及分类,才能够达到数据资产价值最大化。目前,大多数企业的数据资产盘点工作还处在探索阶段,缺少完整的数据标准和盘点方法论支持,大多数企业还主要依靠人工盘点,工作繁琐,效率低下。
[0003]目前数据资产盘点的主要存在以下问题:(1)数据资产定义不完善企业在发展的过程中积累了大量的数据,但是如何将数据转化成数据资产,缺少全面的数据标准化定义,无法对数据进行全面的盘点形成高价值的数据资产;(2)资产盘点基于人工,工作效率低下,准确率低企业在信息化建设过程中建设了几十套甚至上百套业务系统,但是业务系统数据结构定义不统一,不同业务系统同样指标或字段定义不一致,缺少统一的数据命名规范和标准,数据资产的盘点过程繁琐且耗费大量人力物力,工作效率低;缺少数据资产关联关系,无法准确掌握数据资产的应用全貌。

技术实现思路

[0004]针对相关技术中的上述技术问题,本专利技术提出一种自动化进行数据资产盘点的方法和系统,能够克服现有技术方法的上述不足。
[0005]为实现上述技术目的,本专利技术的技术方案是这样实现的:一种自动化进行数据资产盘点的方法,包括以下步骤:S1: 定义元数据标准对应的属性要求,获取数据资产元数据集合;S2: 然后定义业务系统元数据自动化抽取方法和模型,获取业务系统中元数据集合;S3: 基于深度学习算法,定义和训练元数据标准与元数据自动识别和相似度匹配模型,获取自动化匹配算法;S4: 对业务系统元数据集合使用模型进行自动化识别和匹配,实现数据资产自动化盘点,获取数据资产目录和数据资产地图。
[0006]进一步地,步骤S1具体包括以下步骤:S11: 对业务数据元标准主题域进行定义,获取元数据标准的主题域分类集合;
S12: 据步骤S11中定义的元数据标准主题域定义业务元数据标准;S13: 依据定义的业务元数据标准集合,定义技术元数据集合。
[0007]进一步地,步骤S2具体包括以下步骤:S21: 根据业务系统的数据库类型,生成业务系统元数据抽取分类集合,并定义数据结构自动化抽取方法和模型;S22: 依据数据结构自动化抽取模型,提取各业务系统元数据定义规则,汇总生成业务系统待匹配字段元数据列表。
[0008]进一步地,步骤S4具体包括以下步骤:S41: 对待识别的业务系统元数据集合进行数据预处理;S42: 依据BiLSTM + CRF模型,对待识别的业务系统元数据集合进行数据识别,获取元数据标准与业务系统元数据的映射关系集合;S43: 利用数据映射关系集合,生成全业务系统的数据资产目录关联关系和数据资产地图。
[0009]根据本专利技术的另一方面,提供了一种自动化进行数据资产盘点系统,包括元数据分类和元数据标准模块、业务系统数据适配和元数据抽取模块、自动化识别模型训练和模型应用模块、数据资产目录和数据资产地图模块,其中,所述元数据分类和元数据标准模块,用于定义业务系统元数据标准包括技术元数据标准和业务元数据标准的数据集合;所述业务系统数据适配和元数据抽取模块,用于对全部业务系统的数据结构定义,定义自动化抽取业务系统中元数据的内容,包括字段英文名称、中文名称、字段类型长度的自动化抽取,获取业务系统待匹配元数据库;所述自动化识别模型训练和模型应用模块,基于BiLSTM + CRF模型,对业务系统待匹配元数据库进行自动化识别和映射,获取业务系统元数据标准映射结果;所述数据资产目录和数据资产地图模块,应用业务系统元数据标准映射结果,获得全业务系统的数据资产目录,并依据映射关系,获取基于元数据标准的数据资产地图。
[0010]进一步地,所述元数据分类和元数据标准模块包括元数据分类子模块、元数据标准子模块,其中,所述元数据分类子模块用于管理元数据的主题域分类信息,确定元数据的归属,形成元数据分类集合;所述元数据标准子模块用于管理元数据标准信息,确定数据资产的管理范围,形成元数据标准集合。
[0011]进一步地,所述业务系统数据适配和元数据抽取模块包括业务系统数据适配模型子模块、业务系统元数据抽取子模块,其中,所述业务系统数据适配模型子模块,依据业务系统的选用数据库类型,定义自动化抽取业务系统数据结构抽取模型;所述业务系统元数据抽取子模块,依据业务系统数据适配模型,配置业务系统元数据自动化抽取任务,形成业务系统待匹配元数据集合。
[0012]进一步地,所述自动化识别模型训练和模型应用模块包括模型管理子模块、模型应用子模块,其中,
所述模型管理子模块,依据BiLSTM + CRF模型进行模型的训练,获取可应用模型集合;所述模型应用子模块,应用模型对业务系统待匹配元数据集合进行识别,获取符合元数据标准的已匹配业务系统元数据集合。
[0013]进一步地,所述数据资产目录和数据资产地图生成模块包括数据资产目录子模块、数据资产地图子模块,其中,所述数据资产目录子模块,依据已匹配业务系统元数据集合,生成数据资产的多级目录,形成数据资产关联关系集合;所述数据资产地图子模块,依据已匹配业务系统元数据集合,生成数据资产的图形化关联关系可视化展示地图。
[0014]本专利技术的有益效果:通过对业务系统中的元数据集合,自动化抽取和生成待盘点数据,基于元数据标准,使用深度学习模型实现自动化的数据匹配,以此生成数据资产目录和数据资产地图。本专利技术在数据资产盘点领域提出了一种全新的技术实现方式,这样能够保证业务系统中的元数据集合能够通过深度学习模型实现与元数据标准的自动化匹配和映射,定义新的业务系统抽取规则无需二次开发,只需要增加对应适配器及抽取模型,即可实现对不同系统的元数据进行自动化的数据资产盘点,大幅降低了人工盘点带来的时间和准确率问题,快速提升资产盘点的效率,从而实现全面掌控数据资产的存储、去向和用户,实现全面掌控数据资产的价值。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是根据本专利技术实施例所述的自动化进行数据资产盘点的方法和系统的方法流程框图。
[0017]图2是根据本专利技术实施例所述的自动化进行数据资产盘点的方法和系统的系统结构示意图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动化进行数据资产盘点的方法,其特征在于,包括以下步骤:S1: 定义元数据标准对应的属性要求,获取数据资产元数据集合;S2: 然后定义业务系统元数据自动化抽取方法和模型,获取业务系统中元数据集合;S3: 基于深度学习算法,定义和训练元数据标准与元数据自动识别和相似度匹配模型,获取自动化匹配算法;S4: 对业务系统元数据集合使用模型进行自动化识别和匹配,实现数据资产自动化盘点,获取数据资产目录和数据资产地图。2.根据权利要求1所述的自动化进行数据资产盘点的方法,其特征在于,步骤S1具体包括以下步骤:S11: 对业务数据元标准主题域进行定义,获取元数据标准的主题域分类集合;S12: 据步骤S11中定义的元数据标准主题域定义业务元数据标准;S13: 依据定义的业务元数据标准集合,定义技术元数据集合。3.根据权利要求1所述的自动化进行数据资产盘点的方法,其特征在于,步骤S2具体包括以下步骤:S21: 根据业务系统的数据库类型,生成业务系统元数据抽取分类集合,并定义数据结构自动化抽取方法和模型;S22: 依据数据结构自动化抽取模型,提取各业务系统元数据定义规则,汇总生成业务系统待匹配字段元数据列表。4.根据权利要求1所述的自动化进行数据资产盘点的方法,其特征在于,步骤S4具体包括以下步骤:S41: 对待识别的业务系统元数据集合进行数据预处理;S42: 依据BiLSTM + CRF模型,对待识别的业务系统元数据集合进行数据识别,获取元数据标准与业务系统元数据的映射关系集合;S43: 利用数据映射关系集合,生成全业务系统的数据资产目录关联关系和数据资产地图。5.一种自动化进行数据资产盘点的系统,其特征在于,包括元数据分类和元数据标准模块、业务系统数据适配和元数据抽取模块、自动化识别模型训练和模型应用模块、数据资产目录和数据资产地图模块,其中,所述元数据分类和元数据标准模块,用于定义业务系统元数据标准包括技术元数据标准和业务元数据标准的数据集合;所述业务系统数据适配和元数据抽取模块,用于对全部业务系统的数据结构定义,定义自动化抽取业务系统中元数据的内容,包括字段英文名称、...

【专利技术属性】
技术研发人员:赵洋温强曹贺历彦铭朱百佳
申请(专利权)人:吉林银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1