【技术实现步骤摘要】
一种模板确定方法、装置、设备及存储介质
[0001]本公开涉及大数据领域,尤其涉及一种模板确定方法、装置、设备及存储介质。
技术介绍
[0002]大数据交易过程中会产生大量的需要进行清洗处理的源数据,为了对源数据进行统一的清洗处理,在清洗处理前,需要将不同的源数据统一为标准格式的数据。当前大部分做法是针对每一种源数据都预先配置一个数据模板,清洗源数据前确定与源数据对应的模板,从而将源数据转换为标准格式的数据。
技术实现思路
[0003]专利技术人在对现有技术的研究过程中发现,采用现有技术的方案,每当出现新类型的源数据时,均需要重新配置模板,效率较低。为了解决人为配置模板导致的效率低的问题,本公开提供了一种模板确定方法、装置、设备及存储介质。
[0004]第一方面、提供一种模板确定方法,包括:
[0005]当不存在与待处理数据完全匹配的模板时,从与所述待处理数据部分匹配的模板中,确定与所述待处理数据匹配度最高的目标模板;
[0006]确定所述目标模板中与所述待处理数据不匹配的目标列头;< ...
【技术保护点】
【技术特征摘要】
1.一种模板确定方法,其特征在于,包括:当不存在与待处理数据完全匹配的模板时,从与所述待处理数据部分匹配的模板中,确定与所述待处理数据匹配度最高的目标模板;确定所述目标模板中与所述待处理数据不匹配的目标列头;获取所述目标列头在与所述待处理数据属于相同业务类型的数据中的匹配调整记录;根据所述目标列头和所述匹配调整记录,确定所述待处理数据中与所述目标列头匹配的当前数据列;根据所述当前数据列以及所述目标模板中与所述待处理数据匹配的数据列,生成与所述待处理数据匹配的当前模板。2.根据权利要求1所述的方法,其特征在于,所述当不存在与待处理数据完全匹配的模板时,从与所述待处理数据部分匹配的模板中,确定与所述待处理数据匹配度最高的目标模板,包括:当不存在与待处理数据完全匹配的模板时,获取与所述待处理数据对应的第一索引项集合,以及与每一模板对应的第二索引项集合,所述每一模板为所述与所述待处理数据部分匹配的模板中的任一模板,所述第一索引项集合和所述第二索引项集合分别包括至少一个索引项;将目标索引项集合对应的模板作为所述目标模板,其中,所述目标索引项集合为与所述第一索引项集合中的索引项匹配个数最多的第二索引项集合。3.根据权利要求2所述的方法,其特征在于,所述确定所述目标模板中与所述待处理数据不匹配的目标列头,包括:利用所述目标索引项集合和所述第一索引项集合,确定第三索引项集合,所述第三索引项集合为所述目标索引项集合和所述第一索引项集合的交集;将所述目标索引项集合中,除所述第三索引项集合之外的索引项对应的数据列的列头,作为所述目标列头。4.根据权利要求3所述的方法,其特征在于,所述匹配调整记录包括预设历史时间内所述目标列头匹配过的索引项,和匹配每一索引项的时间;所述根据所述目标列头和所述匹配调整记录,确定所述待处理数据中与所述目标列头匹配的当前数据列,包括:从所述目标列头匹配过的索引项中,筛选出属于第四索引项集合的、且匹配时间最接近当前时刻的索引项,作为匹配索引项;所述第四索引项集合为所述第三索引项集合在所述第一索引项集合中的补集;将所述匹配索引项对应的数据列,作为所述当前数据列。5.根据权利要求3所述的方法,其特征在于,所述匹配调整记录包括预设历史时间内所述目标列头匹配过的索引项,和匹配同一索引项的次数;所述根据所述目标列头和所述匹配调整记录,确定所述待处理数据中与所述目标列头匹配的当前数据列,包括:从所述目标列头匹配过的索引项中,筛选出属于第四索引项集合的、且匹配次数...
【专利技术属性】
技术研发人员:颜克旺,
申请(专利权)人:慧睿思通软件技术广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。