System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据映射校验的系统、方法和装置制造方法及图纸_技高网

一种数据映射校验的系统、方法和装置制造方法及图纸

技术编号:39947533 阅读:11 留言:0更新日期:2024-01-08 23:02
本发明专利技术公开了一种数据映射校验的系统、方法和装置,包括:归一化模块,用于获取数据源信息,对历史数据和新增数据进行预处理,并构建样本集合;数据聚类模块,用于获取样本集合的数据,对样本集合进行聚类处理,构建映射字典;数据多分类模块,用于训练预测模型,将新增字段信息输入训练后的预测模型,根据预测结果输出映射关系,若预测结果为空,则建立新增字段信息的映射关系,根据映射关系生成映射数据集,并更新映射字典和预测模型。本发明专利技术提供的数据映射校验的系统、方法和装置,解决具有相似性的字段名称和字段内容的映射问题,并根据已有数据训练预测模型,进一步实现映射关系自动化,减少人工操作的耗时,提升工作效率。

【技术实现步骤摘要】

本专利技术属于数据映射校验,具体涉及一种数据映射校验的系统、方法和装置


技术介绍

1、金融企业如银行有外接不同外部数据服务商的需求。存在同一类场景,但是同时或者顺序接入不同的数据源的情况。不同的服务商提供的数据字段结构既存在相似性也存在差异性。比如同类字段,但是码值规格不一致,又如部分字段不一致。从数据统一管理和维护的角度看,需要将此类的数据融合在一起。通过人工梳理其中的差异性较为费时费力。数据治理工作在梳理金融业务标准时,存在对相同业务,不同产品的标准定义的相似性判断和合并优化。同样需要使用对数据源字段的相似性校验和融合分析技术。

2、现有技术的参考方法如下:方法一:专利号cn114462421a,采用数据表和字段的相似性进行匹配。该方法对数据源和目的端的表名、字段名进行语义识别,得到数据源语义和目的端语义;对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对,得到对应数据源的每个字段的语义相似度列表;根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系;将所有映射关系存储至映射关系库中;判断映射关系库中的所有映射关系是否合理,若不合理,则发出告警并等待人工干预;将人工干预后确认的映射关系纳入映射规则集中。方法二,专利号cn115729935b,2022提供的一种基于orm框架的数据交互处理方法及系统。该方法采用数据源的相关配置转化成适配数据源读取的规则;将不同数据源的数据构建成统一规则的数据类型,获得统一化数据。以上两种方式在对有一定相似性但是又存在差异的数据融合处理场景下,无法直接适用,使用规则映射处理,本身就需要投入较多的时间对每个字段做好映射定义。

3、因此,需要一种方式能够针对相似数据源的管理和数据规范化处理,实现一定的自动化映射处理,降低人工一一映射的处理耗时。


技术实现思路

1、本专利技术的目的在于提供一种数据映射校验的系统、方法和装置,以解决相似数据源的管理和数据规范化处理需要人工处理,使得映射的处理耗时较多且效率较低的问题。

2、为实现上述目的,本专利技术提供如下技术方案:一种数据映射校验的系统,包括:

3、归一化模块,用于获取数据源信息,数据源信息包括历史数据和新增数据,分别对历史数据和新增数据进行预处理,得到历史字段信息和新增字段信息,对历史字段信息进行样本选择,并构建样本集合;

4、数据聚类模块,用于获取样本集合的数据,对样本集合进行聚类处理,得到聚类结果,保存映射聚类结果,对具有相似性的映射聚类结果进行清洗,构建映射字典;

5、数据多分类模块,用于获取映射字典中的映射关系,提取并融合映射关系的特征,训练预测模型,将新增字段信息输入训练后的预测模型,得到预测结果,则输出映射关系,若预测结果为空,则建立新增字段信息的映射关系,根据映射关系生成映射数据集,并更新映射字典和预测模型。

6、优选的,历史数据和新增数据均包括字段名称、字段内容和字段数据,

7、归一化模块包括:

8、字段名称预处理模块,用于对字段名称进行字段清洗,得到标准字段名称;

9、字段内容预处理模块,用于对字段内容进行字段清洗,得到标准字段内容,构建标准字段内容的样本集合;

10、字段数据预处理模块,用于进行字段数据去重,统计字段数据;

11、字段合并模块,用于将标准字段名称、标准字段内容和字段数据合并成融合字符串,并对字符串进行向量化处理。

12、优选的,聚类结果包括点群集和噪声点,

13、数据聚类模块包括:

14、聚类计算模块:用于计算样本集合的数据,生成聚类结果,识别聚类结果中的点群集与噪声点;

15、特征映射模块,用于映射聚类结果,映射点群集和噪声点,并根据映射关系构建映射字典;

16、人工介入模块,用于提供人工操作的端口;

17、数据校验模块,用于校验特征映射模块中的映射关系:

18、响应于噪声点校验命令,通过人工介入模块,录入噪声点至特征映射模块,若不存在已有映射关系,则建立新增映射关系;

19、响应于字段信息校验命令,通过人工介入模块,判断标准字段名称的相似性,人工确定具有相似性的标准字段名称但不同含义的映射关系。

20、优选的,数据多分类模块包括:

21、模型训练模块,用于获取映射关系及相应的标准字段名称作为特征,通过转换标准字段名称融合特征,将融合后的特征输入预测模型,训练预测模型;

22、数据更新模块,用于获取预测结果为空的新增字段信息,将新增字段信息输入数据聚类模块,新增字段信息的映射关系,并更新映射字典和预测模型。

23、一种数据映射校验的方法,包括:

24、获取历史数据,对历史数据进行预处理,得到历史字段信息,对历史字段信息进行样本选择,构建样本集合;

25、基于样本集合的数据,对样本集合进行聚类处理,得到聚类结果,映射聚类结果,对具有相似性的映射聚类结果进行清洗,构建映射字典;

26、基于构建的映射字典,获取映射关系,提取并融合映射关系的特征,训练预测模型;

27、获取新增数据,对新增数据进行预处理,得到新增字段信息;

28、基于得到的新增字段信息,将新增字段信息输入训练后的预测模型,得到预测结果,则输出映射关系,若预测结果为空,则建立新增字段信息的映射关系,根据映射关系生成映射数据集,更新映射字典和预测模型。

29、优选的,历史数据和新增数据均包括字段名称、字段内容和字段数据,

30、分别对历史数据和新增数据进行预处理包括:

31、字段名称预处理,对字段名称进行字段清洗,得到标准字段名称;

32、字段内容预处理,对字段内容进行字段清洗,得到标准字段内容,构建标准字段内容的样本集合;

33、字段数据预处理,进行字段数据去重,统计字段数据。

34、优选的,对历史字段信息进行样本选择,构建样本集合之前还包括:分别对历史字段信息和新增字段信息进行向量化处理,具有如下步骤:

35、获取标准字段名称、标准字段内容和字段数据;

36、将标准字段名称、标准字段内容和字段数据合并成融合字符串,如果合并后的融合字符串过大,则对标准字段内容和字段数据进行采样加工处理后再合并构建融合字符串;

37、对字符串进行向量化处理。

38、优选的,聚类结果包括点群集和噪声点,

39、构建映射字典包括:

40、聚类计算:计算样本集合的数据,生成聚类结果,识别聚类结果中的点群集与噪声点;

41、特征映射,映射聚类结果,映射点群集和噪声点,并根据映射关系构建映射字典;

42、人工介入,在数据校验时提供人工操作;

43、数据校验,校验特征映射中的映射关系:

44、噪声点校验命令时,通过人本文档来自技高网...

【技术保护点】

1.一种数据映射校验的系统,其特征在于:包括:

2.根据权利要求1所述的一种数据映射校验的系统,其特征在于,

3.根据权利要求1所述的一种数据映射校验的系统,其特征在于:

4.根据权利要求3所述的一种数据映射校验的系统,其特征在于:

5.一种数据映射校验的方法,其特征在于:包括如下步骤:

6.根据权利要求5所述的一种数据映射校验的方法,其特征在于:

7.根据权利要求5所述的一种数据映射校验的方法,其特征在于:

8.根据权利要求6所述的一种数据映射校验的方法,其特征在于:

9.根据权利要求5所述的一种数据映射校验的方法,其特征在于:

10.一种数据映射校验的装置,其特征在于:处理器和存储器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现权利要求5-9中任一项所述的方法。

【技术特征摘要】

1.一种数据映射校验的系统,其特征在于:包括:

2.根据权利要求1所述的一种数据映射校验的系统,其特征在于,

3.根据权利要求1所述的一种数据映射校验的系统,其特征在于:

4.根据权利要求3所述的一种数据映射校验的系统,其特征在于:

5.一种数据映射校验的方法,其特征在于:包括如下步骤:

6.根据权利要求5所述的一种数据映射校验的方法,其特征在于:...

【专利技术属性】
技术研发人员:郑清正
申请(专利权)人:江苏苏宁银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1