The embodiment of this application discloses a data matching method and device, which relates to the field of communication, and solves the problem of mismatching when data from different data sources are fuzzily matched. The specific scheme is: to obtain the first data record and the second data record, to obtain the correlation field and the matching field of the data record, to divide the data record with the same key value of the correlation field in the first data record into a group, to get the first group set, and to record the data record with the same key value of the correlation field in the second data record. Divide into a group and get the second group set. When matching data is allowed, the two data records of the first group and the second group are correlated, and the distance to be matched between the two data records is calculated. The record with the minimum absolute value of the distance to be matched is determined as the record with successful matching and matched. Successful deletion of associated data records with the same field values in the fields to be matched for the associated data records. The embodiment of this application is used in the process of data matching.
【技术实现步骤摘要】
一种数据匹配方法及装置
本申请实施例涉及通信领域,尤其涉及一种数据匹配方法及装置。
技术介绍
随着大数据行业的崛起,各行各业对数据价值有了更多的关注。在数据的生命周期中包含数据生成和数据应用两个主要环节。其中,在数据应用环节,需要将多个数据源产生的数据进行模糊匹配,具体的可以通过距离进行数据的模糊匹配。例如,在将网络侧和计费中心这两个数据源的通话记录进行模糊匹配的情况下,可以以主叫号码为关联字段,从两个数据源获取具有相同主叫号码的通话记录,并以通话开始时间为待匹配字段,匹配来自两个数据源、具有相同主叫号码的两条通话记录,若两条通话记录包括的通话开始时间接近,则确定两条通话记录匹配成功。但是,由于数据源记录的通话记录可能会出现漏记、错记的情况,此时进行数据匹配可能会导致错配的问题,使得数据匹配的准确性较低。例如,对于同一个主叫号码,网络侧记录有两条通话记录,通话开始时间分别为:3点和5点,计费中心漏记了一条通话记录,仅记录有通话开始时间为5点的通话记录,这样进行匹配时,会出现网络侧的3点的通话记录与计费中心的5点的通话记录匹配成功,网络侧的5点的通话记录不再进行匹配 ...
【技术保护点】
1.一种数据匹配方法,其特征在于,所述方法包括:获取第一数据源的第一数据记录和第二数据源的第二数据记录,并获取数据记录的关联字段和待匹配字段;将所述第一数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第一分组集合,所述第一分组集合包括至少一个第一分组;将所述第二数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第二分组集合,所述第二分组集合包括至少一个第二分组;在允许匹配数据的情况下,将所述第一分组和所述第二分组的两条数据记录进行关联,并计算关联的两条数据记录的待匹配距离,所述待匹配距离为关联的两条数据记录的待匹配字段的字段值的绝对值,所述第一分组和所述第 ...
【技术特征摘要】
1.一种数据匹配方法,其特征在于,所述方法包括:获取第一数据源的第一数据记录和第二数据源的第二数据记录,并获取数据记录的关联字段和待匹配字段;将所述第一数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第一分组集合,所述第一分组集合包括至少一个第一分组;将所述第二数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第二分组集合,所述第二分组集合包括至少一个第二分组;在允许匹配数据的情况下,将所述第一分组和所述第二分组的两条数据记录进行关联,并计算关联的两条数据记录的待匹配距离,所述待匹配距离为关联的两条数据记录的待匹配字段的字段值的绝对值,所述第一分组和所述第二分组的关联字段的键值相同;将所述待匹配距离中绝对值最小的两条关联数据记录确定为匹配成功的记录;将除所述匹配成功的关联数据记录外的其他关联数据记录中,与所述匹配成功的关联数据记录的待匹配字段的字段值相同的关联数据记录进行删除。2.根据权利要求1所述的数据匹配方法,其特征在于,在所述将所述第二数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第二分组集合之后,还包括:获取所述第一数据记录的关联字段的第一键值集合,并获取所述第二数据记录的关联字段的第二键值集合;根据所述第一键值集合和所述第二键值集合,确定目标键值集合,所述目标键值集合包括的键值同时包含在所述第一键值集合和所述第二键值集合中;删除所述第一分组集合中,未包含在所述目标键值集合的键值的第一分组,得到第一目标分组集合,并删除所述第二分组集合中,未包含在所述目标键值集合的键值的第二分组,得到第二目标分组集合;删除所述第一目标分组和所述第二目标分组中重复的数据记录,所述重复的数据记录为关联字段的键值相同,且待匹配字段的字段值相同的数据记录。3.根据权利要求2所述的数据匹配方法,其特征在于,所述将所述第一分组和所述第二分组的两条数据记录进行关联,包括:将删除重复的数据记录的所述第一目标分组和所述第二目标分组的两条数据记录进行关联。4.根据权利要求2所述的数据匹配方法,其特征在于,所述方法还包括:在不允许匹配数据的情况下,根据所述待匹配字段的字段值对所述第一目标分组的数据记录进行排序,并对所述第二目标分组的数据记录进行排序;计算目标分组内,相邻的两条数据记录的待匹配字段的字段值的差值,并将所有差值按照由小到大的顺序进行排序;根据预设数量的差值计算所述第一目标分组和所述第二目标分组的待匹配字段的距离均值。5.根据权利要求4所述的数据匹配方法,其特征在于,所述方法还包括:在确定出所有的匹配成功的记录后,根据匹配成功的记录的待匹配距离,计算待匹配距离的均值和均方差;将所有目标分组的待匹配字段的距离均值按照由小到大的顺序进行排序;根据排序后的预设数量的待匹配字段的距离均值,计算目标距离均值;根据所述目标距离均值和所述均方差,计算适用系数。6.一种数据匹配装置,其特征在于,所述数据匹配装置包括:获取单元、分组单元、关联单元、计算单元、确定单元和删除单元;所...
【专利技术属性】
技术研发人员:郭省力,陈崴嵬,郭景赞,乔自知,李京辉,李德屹,金雨超,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。