一种数据整合方法、装置、存储介质、电子设备及产品制造方法及图纸

技术编号:38096551 阅读:8 留言:0更新日期:2023-07-06 09:11
本发明专利技术公开了一种数据整合方法、装置、存储介质、电子设备及产品。包括:获取多个数据项的口径说明文本;对于任意两数据项,基于至少两种相似度计算方式分别确定两数据项的口径说明文本之间的相似度数据,得到至少两种相似度数据;基于至少两种相似度数据确定两数据项之间的目标相似度数据;基于两数据项的目标相似度数据和两数据项的数据项名对两数据项进行整合处理。本方案通过采用多个相似度计算方式计算多个数据项的口径说明文本相似度数据,并确定两数据项之间的目标相似度数据,基于目标相似度数据对数据项进行整合处理,解决了同一实体下数据项的相似度识别效率差的问题,提高了数据整合的准确性和高效性。高了数据整合的准确性和高效性。高了数据整合的准确性和高效性。

【技术实现步骤摘要】
一种数据整合方法、装置、存储介质、电子设备及产品


[0001]本专利技术涉及大数据
,尤其涉及一种数据整合方法、装置、存储介质、电子设备及产品。

技术介绍

[0002]随着系统的不断推进建设,系统的生产数据越来越多,对于数据的关注点从数据的生产域转到了数据的消费域。
[0003]对于数据量的越来越多的情况,需要对数据进行分类,明确哪些数据是具备分析价值且可以被使用的,有助于更好地利用系统的生产数据。对于数据分类在多数情况是需要通过人工参与,例如对于复杂加工的数据项,需要花费大量的时间去识别加工逻辑。通过人工参与的分类方法,依赖人力的判断,使得判断效率低下且准确性也存在一定问题。

技术实现思路

[0004]本专利技术提供了一种数据整合方法、装置、存储介质、电子设备及产品,以解决数据项及其口径说明文本相似度识别效率差的问题。
[0005]根据本专利技术的一方面,提供了一种数据整合方法,包括:
[0006]获取多个数据项的口径说明文本;
[0007]对于任意两数据项,基于至少两种相似度计算方式分别确定两数据项的口径说明文本之间的相似度数据,得到至少两种相似度数据;
[0008]基于至少两种相似度数据确定两数据项之间的目标相似度数据;
[0009]基于两数据项的目标相似度数据和两数据项的数据项名对两数据项进行整合处理,其中,整合处理包括:去重处理、归并处理和拆分处理。
[0010]获取多个数据项的口径说明文本,包括:
[0011]从多个数据源获取待处理的多个数据项,基于数据项粒度对多个数据项分别进行挂接;
[0012]获取同一数据粒度下多个数据项的口径说明文本。
[0013]至少两种相似度计算方式为预先设置的;
[0014]或者,预先设置的算法池中包括多个相似度计算方式,至少两种相似度计算方式为从算法池中随机抽取的。
[0015]基于至少两种相似度数据确定两数据项之间的目标相似度数据,包括:
[0016]获取各至少两种相似度计算方式分别对应的权重数据;
[0017]基于权重数据对至少两种相似度数据进行加权处理,得到目标相似度数据。
[0018]至少两种相似度计算方式包括从不同维度对口径说明文本确定相似度数据的处理方式;
[0019]相似度计算方式对应的权重数据基于计算维度的重要性确定。
[0020]相似度计算方式包括LDA算法和Doc2vec算法。
[0021]在基于两数据项的目标相似度数据和两数据项的数据项名对两数据项进行整合处理之前,方法还包括:
[0022]对各数据项进行预处理,预处理包括如下的一项或多项:数据项命名规范化处理、确定数据项来源、确定数据项的定义文本。
[0023]基于两数据项的目标相似度数据和两数据项的数据项名对两数据项进行整合处理,包括:
[0024]对数据项名相同,且目标相似度数据满足相似度条件的两数据项进行去重处理;
[0025]对数据项名不同,且目标相似度数据满足相似度条件的两数据项进行归并处理;
[0026]对数据项名相同,且目标相似度数据不满足相似度条件的两数据项进行拆分处理。
[0027]归并处理包括对两数据项的数据项名统一,并将两数据项合并;
[0028]拆分处理包括对两数据项中的一项或两项进行命名更新,以使两数据项名不同。
[0029]根据本专利技术的一方面,提供了一种数据整合装置,包括:
[0030]说明文本获取模块,用于获取多个数据项的口径说明文本;
[0031]相似度数据确定模块,用于对于任意两数据项,基于至少两种相似度计算方式分别确定两数据项的口径说明文本之间的相似度数据,得到至少两种相似度数据;
[0032]目标相似度数据确定模块,用于基于至少两种相似度数据确定两数据项之间的目标相似度数据;
[0033]数据项整合处理模块,用于基于两数据项的目标相似度数据和两数据项的数据项名对两数据项进行整合处理,其中,整合处理包括:去重处理、归并处理和拆分处理。
[0034]一种数据整合装置还包括:
[0035]权重数据获取模块,用于获取各至少两种相似度计算方式分别对应的权重数据;
[0036]相似度数据加权模块,用于基于权重数据对至少两种相似度数据进行加权处理,得到目标相似度数据。
[0037]根据本专利技术的另一方面,提供了一种电子设备,电子设备包括:
[0038]至少一个处理器;以及
[0039]与至少一个处理器通信连接的存储器;其中,
[0040]存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本专利技术任一实施例的数据整合方法。
[0041]根据本专利技术的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本专利技术任一实施例的数据整合方法。
[0042]根据本专利技术的另一方面,提供了一种计算机程序产品,其特征在于,计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本专利技术任一实施例的数据整合方法。
[0043]本专利技术实施例的技术方案,本方案通过采用多个相似度计算方式计算多个数据项的口径说明文本相似度数据,并确定两数据项之间的目标相似度数据,基于目标相似度数据对数据项进行整合处理,解决数据项及其口径说明文本的相似度识别效率差的问题,使得对各种数据项的口径说明文本相似度识别更加准确,提高了数据整合的准确性和高效
性。
[0044]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0045]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]图1是本专利技术实施例一提供的一种数据整合方法的流程图;
[0047]图2是本专利技术实施例一提供的一种数据整合模型的设计流程示意图;
[0048]图3是本专利技术实施例二提供的一种数据整合方法的流程图;
[0049]图4是本专利技术实施例三提供的一种数据整合装置的结构示意图;
[0050]图5是本专利技术实施例四提供的一种电子设备的结构示意图。
具体实施方式
[0051]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。...

【技术保护点】

【技术特征摘要】
1.一种数据整合方法,其特征在于,包括:获取多个数据项的口径说明文本;对于任意两数据项,基于至少两种相似度计算方式分别确定所述两数据项的口径说明文本之间的相似度数据,得到至少两种相似度数据;基于所述至少两种相似度数据确定所述两数据项之间的目标相似度数据;基于所述两数据项的目标相似度数据和所述两数据项的数据项名对所述两数据项进行整合处理,其中,所述整合处理包括:去重处理、归并处理和拆分处理。2.根据权利要求1所述的方法,其特征在于,所述获取多个数据项的口径说明文本,包括:从多个数据源获取待处理的多个数据项,基于数据项粒度对所述多个数据项分别进行挂接;获取同一数据粒度下多个数据项的口径说明文本。3.根据权利要求1所述的方法,其特征在于,至少两种相似度计算方式为预先设置的;或者,预先设置的算法池中包括多个相似度计算方式,所述至少两种相似度计算方式为从所述算法池中随机抽取的。4.根据权利要求1所述的方法,其特征在于,所述基于所述至少两种相似度数据确定所述两数据项之间的目标相似度数据,包括:获取各所述至少两种相似度计算方式分别对应的权重数据;基于所述权重数据对所述至少两种相似度数据进行加权处理,得到所述目标相似度数据。5.根据权利要求4所述的方法,其特征在于,所述至少两种相似度计算方式包括从不同维度对口径说明文本确定相似度数据的处理方式;所述相似度计算方式对应的权重数据基于计算维度的重要性确定。6.根据权利要求4所述的方法,其特征在于,所述相似度计算方式对应的权重数据基于所述相似度计算方式的相似度计算精度确定。7.根据权利要求1所述的方法,其特征在于,所述相似度计算方式包括LDA算法和Doc2vec算法。8.根据权利要求1所述的方法,其特征在于,在基于所述两数据项的目标相似度数据和所述两数据项的数据项名对所述两数据项进行整合处理之前,所述方法还包括:对各所述数据项进行预处理,所述预处理包括如下的一项或多项:数据项命名规范化处理、确定数据项来源、确定数据项的定义文本。9.根据权利要求1所述的方法,其特征在于,所述基于所述两数据项的目标相似度数据和所述两数据项的数据项名对所述两数据项进行整合处理,包括:对所述数据项名相同,...

【专利技术属性】
技术研发人员:林素芬
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1