记录对齐方法、电子设备和可读存储介质技术

技术编号:38513110 阅读:24 留言:0更新日期:2023-08-19 16:56
本申请提供记录对齐方法、电子设备和可读存储介质。该方法包括:获取多条目标记录;对各条目标记录分别进行数值化处理,以生成各条目标记录分别对应的数值集;将各条目标记录分别对应的数值集输入至预设概率模型,以确定所述的各条目标记录为同一记录的概率;基于所述概率对所述的各条目标记录进行记录对齐。在该方法的记录对齐过程中,由于是将各条目标记录分别对应的数值集输入至预设概率模型,进而通过该预设概率模型来确定各条目标记录为同一记录的概率,相对于人工识别多条记录是否为同一记录的方式,效率相对较高,进而能够提高记录对齐的效率。对齐的效率。对齐的效率。

【技术实现步骤摘要】
记录对齐方法、电子设备和可读存储介质


[0001]本申请涉及互联网
,具体而言,涉及记录对齐方法、电子设备和可读存储介质。

技术介绍

[0002]随着用户需求越来越多样化,企业为了满足用户多样化的需求,通常会针对不同的用户需求来设置相应的业务系统,来实现不同业务的处理。这些业务系统在业务处理过程中,分别会采集到相应的业务数据,并将所采集到的业务数据作为记录,存储于自身的数据库中。这种不同业务系统分别存储业务数据的方式,通常会导致即使是同一用户,在不同业务系统的数据库中通常存储有不同的记录,因此需要针对不同业务系统中相同用户的记录进行记录对齐(record linkage)。
[0003]目前的记录对齐过程中,先通过人工方式识别不同业务系统中的多条记录是否为同一记录(即,同一用户在不同业务系统中分别形成的记录),若为同一记录,则进一步将该多条记录进行对齐。然而这种记录对齐方式,由于需要先通过人工识别多条记录是否为同一记录,通常会导致记录对齐的效率较低。

技术实现思路

[0004]本申请实施例的目的在于提供记录对齐方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种记录对齐方法,其特征在于,包括:获取多条目标记录;对各条目标记录分别进行数值化处理,以生成各条目标记录分别对应的数值集;将各条目标记录分别对应的数值集输入至预设概率模型,以确定所述的各条目标记录为同一记录的概率;基于所述概率对所述的各条目标记录进行记录对齐。2.根据权利要求1所述的方法,其特征在于,获取多条目标记录具体包括:从记录集的各条纪录的字段中筛选出关键字段;根据所述关键字段的字段值,从所述记录集中选取出关键字段的字段值相同的多条记录,作为所述的多条目标记录。3.根据权利要求1所述的方法,其特征在于,获取多条目标记录具体包括:从记录集中获取第一条目标记录;根据与所述第一条目标记录中目标字段的字段值的相似度,从所述记录集中再获取至少一条目标记录。4.根据权利要求3所述的方法,其特征在于,根据与所述第一条目标记录中目标字段的字段值的相似度,从所述记录集中再获取至少一条目标记录,具体包括:将所述第一条目标记录中目标字段的字段值转化为第一向量,以及将所述记录集中其他记录的目标字段的字段值分别转化为第二向量;分别计算所述第一向量与各个第二向量的相似度;确定相似度最大的第二向量所对应的记录,作为所获取一条目标记录。5.根据权利要求1所述的方法,其特征在于,对各条目标记录分别进行数值化处理,以生成各条目标记录分别对应的数值集,具体包括:分别针对各条目标记录,利用预设数值化规则对所述目标记录的各个字段的字段值进行数值化处理,以...

【专利技术属性】
技术研发人员:唐犁
申请(专利权)人:青岛创新奇智科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1