数据记录处理方法技术

技术编号:39427678 阅读:14 留言:0更新日期:2023-11-19 16:13
本公开提供了一种数据记录处理方法

【技术实现步骤摘要】
数据记录处理方法、装置、设备和介质


[0001]本公开涉及自然语言处理
,尤其涉及一种数据记录处理方法

装置

设备和介质


技术介绍

[0002]当前,在系统的建设过程中获取到的数据往往是来源于多个数据源的数据记录,数据关系日益复杂

冗余,占用较多存储空间和运行空间,因此需要在系统建设中将多个来源的数据进行处理,对比出其中重复记录再进行归并

[0003]相关技术中是将这些记录以属性为判断标准依次对应进行比较,若两个记录包含的属性对应的属性值都一一对应,则认为两个记录相同,判定为相同记录进行归并,否则认为两个记录不相同,判定为不同记录,不做归并处理

[0004]相关技术中通过一一比较两个记录对应属性的取值,只有所有属性值全部相同才能判定两个记录相同,但在实际过程中,由于种种因素,可能会出现属性值存在偏差的情况,例如出现同音字

相近字

多字漏字以及误差等情况,此类数据记录实质上是相同记录,而相关技术会将其判定为不同记录;也可能存在一组属性中只要满足部分属性对应的属性值一致即可判定为相同记录的情况,而相关技术难以对此类情况进行处理;此外,不同属性值对记录对比的影响程度可能存在差异,而相关技术难以体现出这种差异性

[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息


技术实现思路

[0006]本公开提供一种数据记录处理方法

装置

设备和介质,至少在一定程度上克服相关技术中无法准确地数据记录是否相同进行判定的问题

[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得

[0008]根据本公开的一个方面,提供了一种数据记录处理方法,包括:获取待处理的多条数据记录,其中,每条数据记录包括:一个或多个特征属性的属性值;利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值,其中,所述基准数据记录包括:一个或多个特征属性的基准值;根据每条数据记录中各个特征属性对应的标准属性值以及预先配置的各个特征属性的权重值,计算第一数据记录和第二数据记录的相似度,其中,所述第一数据记录和所述第二数据记录为所述多条数据记录中的任意两条数据记录;根据所述第一数据记录和第二数据记录的相似度,确定所述第一数据记录和所述第二数据记录是否为同一数据记录

[0009]在一些实施例中,所述待处理的多条数据记录是来自相同或不同数据源的数据

[0010]在一些实施例中,在利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值之前,所述方法还包括:
根据每条数据记录中各个特征属性的属性值,生成第一矩阵,所述第一矩阵的每个元素代表任一条数据记录中任一个特征属性的属性值

[0011]在一些实施例中,利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值,包括:利用基准数据记录对第一矩阵中各个特征属性的属性值进行标准化处理,得到第二矩阵,其中,所述第二矩阵的每个元素代表任一条数据记录中任一个特征属性的的标准属性值

[0012]在一些实施例中,通过如下公式对每条数据记录中各个特征属性的属性值进行标准化处理:
[0013]prob(a
ij
)

similarity(a
ij
,b
i
)
[0014]其中,
a
ij
表示第
i
个属性对应的第
j
个属性值,
b
i
表示基准数据记录中第
i
个属性对应的基准属性值,
i
表示属性个数的索引,
i

1,

,n

n
表示属性的总数,
j
表示待处理数据记录条数的索引,
j

1,

,m

m
表示待处理数据记录的总数,
prob(a
ij
)
表示
a
ij
对应的标准属性值,
similarity(a
ij
,b
i
)
用于计算
a
ij

b
i
的相似度

[0015]在一些实施例中,根据所述第一数据记录和第二数据记录的相似度,确定所述第一数据记录和所述第二数据记录是否为同一数据记录,包括:计算所述第一数据记录和所述第二数据记录之间的欧氏距离;判断所述欧氏距离是否在预设距离范围内;若是,则所述第一数据记录和所述第二数据记录是同一数据记录;若否,则所述第一数据记录和所述第二数据记录不是同一数据记录

[0016]在一些实施例中,在判断所述欧氏距离是否在预设距离范围内之后,所述方法还包括:若所述第一数据记录和所述第二数据记录为同一数据记录,则将所述第一数据记录与所述第二数据记录合并

[0017]根据本公开的另一个方面,还提供了一种数据记录处理装置,包括:数据记录获取模块,用于获取待处理的多条数据记录,其中,每条数据记录包括:一个或多个特征属性的属性值;标准化处理模块,用于利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值,其中,所述基准数据记录包括:一个或多个特征属性的基准值;相似度计算模块,用于根据每条数据记录中各个特征属性对应的标准属性值以及预先配置的各个特征属性的权重值,计算第一数据记录和第二数据记录的相似度,其中,所述第一数据记录和所述第二数据记录为所述多条数据记录中的任意两条数据记录;对比结果确定模块,用于根据所述第一数据记录和第二数据记录的相似度,确定所述第一数据记录和所述第二数据记录是否为同一数据记录

[0018]根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据记录处理方法

[0019]根据本公开的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据记录处理方法

[0020]根据本公开的另一个方面,还提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据记录处理方法,其特征在于,包括:获取待处理的多条数据记录,其中,每条数据记录包括:一个或多个特征属性的属性值;利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值,其中,所述基准数据记录包括:一个或多个特征属性的基准值;根据每条数据记录中各个特征属性对应的标准属性值以及预先配置的各个特征属性的权重值,计算第一数据记录和第二数据记录的相似度,其中,所述第一数据记录和所述第二数据记录为所述多条数据记录中的任意两条数据记录;根据所述第一数据记录和第二数据记录的相似度,确定所述第一数据记录和所述第二数据记录是否为同一数据记录
。2.
根据权利要求1所述的数据记录处理方法,其特征在于,所述待处理的多条数据记录为来自相同或不同数据源的数据
。3.
根据权利要求1所述的数据记录处理方法,其特征在于,在利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值之前,所述方法还包括:根据每条数据记录中各个特征属性的属性值,生成第一矩阵,所述第一矩阵的每个元素代表任一条数据记录中任一个特征属性的属性值
。4.
根据权利要求3所述的数据记录处理方法,其特征在于,利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值,包括:利用基准数据记录对第一矩阵中各个特征属性的属性值进行标准化处理,得到第二矩阵,其中,所述第二矩阵的每个元素代表任一条数据记录中任一个特征属性的标准属性值
。5.
根据权利要求4所述的数据记录处理方法,其特征在于,通过如下公式对每条数据记录中各个特征属性的属性值进行标准化处理:
prob(a
ij
)

similarity(a
ij
,b
i
)
其中,
a
ij
表示第
i
个属性对应的第
j
个属性值,
b
i
表示基准数据记录中第
i
个属性对应的基准属性值,
i
表示属性个数的索引,
i

1,

,n

n
表示属性的总数,
j
表示待处理数据记录条数的索引,

【专利技术属性】
技术研发人员:付斌
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1