【技术实现步骤摘要】
数据记录处理方法、装置、设备和介质
[0001]本公开涉及自然语言处理
,尤其涉及一种数据记录处理方法
、
装置
、
设备和介质
。
技术介绍
[0002]当前,在系统的建设过程中获取到的数据往往是来源于多个数据源的数据记录,数据关系日益复杂
、
冗余,占用较多存储空间和运行空间,因此需要在系统建设中将多个来源的数据进行处理,对比出其中重复记录再进行归并
。
[0003]相关技术中是将这些记录以属性为判断标准依次对应进行比较,若两个记录包含的属性对应的属性值都一一对应,则认为两个记录相同,判定为相同记录进行归并,否则认为两个记录不相同,判定为不同记录,不做归并处理
。
[0004]相关技术中通过一一比较两个记录对应属性的取值,只有所有属性值全部相同才能判定两个记录相同,但在实际过程中,由于种种因素,可能会出现属性值存在偏差的情况,例如出现同音字
、
相近字
、
多字漏字以及误差等情况,此类数据记录实质上是相同记录,而相关技术会将其判定为不同记录;也可能存在一组属性中只要满足部分属性对应的属性值一致即可判定为相同记录的情况,而相关技术难以对此类情况进行处理;此外,不同属性值对记录对比的影响程度可能存在差异,而相关技术难以体现出这种差异性
。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种数据记录处理方法,其特征在于,包括:获取待处理的多条数据记录,其中,每条数据记录包括:一个或多个特征属性的属性值;利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值,其中,所述基准数据记录包括:一个或多个特征属性的基准值;根据每条数据记录中各个特征属性对应的标准属性值以及预先配置的各个特征属性的权重值,计算第一数据记录和第二数据记录的相似度,其中,所述第一数据记录和所述第二数据记录为所述多条数据记录中的任意两条数据记录;根据所述第一数据记录和第二数据记录的相似度,确定所述第一数据记录和所述第二数据记录是否为同一数据记录
。2.
根据权利要求1所述的数据记录处理方法,其特征在于,所述待处理的多条数据记录为来自相同或不同数据源的数据
。3.
根据权利要求1所述的数据记录处理方法,其特征在于,在利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值之前,所述方法还包括:根据每条数据记录中各个特征属性的属性值,生成第一矩阵,所述第一矩阵的每个元素代表任一条数据记录中任一个特征属性的属性值
。4.
根据权利要求3所述的数据记录处理方法,其特征在于,利用基准数据记录对每条数据记录中各个特征属性的属性值进行标准化处理,得到每条数据记录中各个特征属性的标准属性值,包括:利用基准数据记录对第一矩阵中各个特征属性的属性值进行标准化处理,得到第二矩阵,其中,所述第二矩阵的每个元素代表任一条数据记录中任一个特征属性的标准属性值
。5.
根据权利要求4所述的数据记录处理方法,其特征在于,通过如下公式对每条数据记录中各个特征属性的属性值进行标准化处理:
prob(a
ij
)
=
similarity(a
ij
,b
i
)
其中,
a
ij
表示第
i
个属性对应的第
j
个属性值,
b
i
表示基准数据记录中第
i
个属性对应的基准属性值,
i
表示属性个数的索引,
i
=
1,
…
,n
,
n
表示属性的总数,
j
表示待处理数据记录条数的索引,
技术研发人员:付斌,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。