地址数据的清洗方法及装置、存储介质、计算机设备制造方法及图纸

技术编号:28778903 阅读:17 留言:0更新日期:2021-06-09 11:09
本申请公开了一种地址数据的清洗方法及装置、存储介质、计算机设备,该方法包括:获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。本申请提升了地址清洗的准确率,有助于从数据源中挖掘出更准确、可靠的地址信息。地址信息。地址信息。

【技术实现步骤摘要】
地址数据的清洗方法及装置、存储介质、计算机设备


[0001]本申请涉及计算机
,尤其是涉及到一种地址数据的清洗方法及装置、存储介质、计算机设备。

技术介绍

[0002]当今社会是一个信息化的社会,人们每天使用各种电子设备的同时会产生大量的数据,从这些数据中可以挖掘出人们曾经去过的地点(如省、市、区)。
[0003]现有技术中,针对与用户相关的大量数据中,提取出包含地点的信息(如省、市、区),以此作为用户对应的地址信息。但是并非只要数据中出现了地点关键词就能证明用户曾去过这个地点,由于数据格式的多样性,数据本身的冗余性,以及一些与省、市、区重名的数据内容会一定程度上影响计算机通过这些数据挖掘出用户在过去一段时间真正去过的省、市、区。因此这种方法存在一定缺陷,用该方法分析出的用户地址信息不够准确。

技术实现思路

[0004]有鉴于此,本申请提供了一种地址数据的清洗方法及装置、存储介质、计算机设备,提升了地址清洗的准确率,有助于从数据源中挖掘出更准确、可靠的地址信息。
[0005]根据本申请的一个方面,提供了一种地址数据的清洗方法,包括:
[0006]获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;
[0007]根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;
[0008]提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;r/>[0009]根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。
[0010]可选地,所述根据预设场景字典对所述地址数据对应的目标场景进行匹配,并依据匹配结果确定所述地址数据对应的场景置信度,具体包括:
[0011]获取任一地址数据对应的目标场景,并查询所述预设场景字典中是否包含所述任一地址数据对应的目标场景;
[0012]若所述预设场景字典中包含所述目标场景,则基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度;
[0013]若所述预设场景字典中不包含所述目标场景,则依据预设场景置信度确定所述任一地址数据对应的场景置信度。
[0014]可选地,所述根据预设场景字典对所述地址数据对应的目标场景进行匹配之前,所述方法还包括:
[0015]统计样本数据源中样本地址数据的数据来源;
[0016]获取所述数据来源中占比大于预设阈值或占比排名前预设数量的目标数据来源,并依据所述目标数据来源建立所述预设场景字典。
[0017]可选地,所述基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度之前,所述方法还包括:
[0018]获取所述数据源对应的全部目标场景,并在每种目标场景对应的地址数据中抽取部分地址数据;
[0019]对每种目标场景下抽取的部分地址数据进行场景标注,并基于所述场景标注以及所述部分地址数据对应的目标场景,确定每种目标场景对应的场景匹配准确率。
[0020]可选地,所述提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度,具体包括:
[0021]提取任一地址数据对应的目标地址以及目标用户,并获取所述目标用户对应的目标历史数据源;
[0022]统计所述目标历史数据源中包含的历史地址数据中与所述目标地址匹配的目标历史数据数量,并将所述目标历史数据数量映射为地址置信度作为所述任一地址数据对应的地址置信度。
[0023]可选地,所述依据所述目标置信度确定所述目标用户对应的地址信息,具体包括:
[0024]在所述地址数据中,获取所述目标置信度大于预设置信度阈值的目标地址数据;
[0025]统计所述目标地址数据包含的每个目标用户的地址信息,并输出每个所述目标用户的地址信息。
[0026]可选地,所述获取待清洗的数据源之后,所述方法还包括:
[0027]对所述数据源进行数据清洗,删除所述数据源中地址信息为空的地址数据,所述地址信息包括多级行政区划信息。
[0028]根据本申请的另一方面,提供了一种地址数据的清洗装置,包括:
[0029]数据源获取模块,用于获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;
[0030]场景置信度确定模块,用于根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;
[0031]地址置信度确定模块,用于提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;
[0032]地址信息确定模块,用于根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。
[0033]可选地,所述场景置信度确定模块,具体包括:
[0034]场景匹配单元,用于获取任一地址数据对应的目标场景,并查询所述预设场景字典中是否包含所述任一地址数据对应的目标场景;
[0035]第一置信度确定单元,用于若所述预设场景字典中包含所述目标场景,则基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度;
[0036]第二置信度确定单元,用于若所述预设场景字典中不包含所述目标场景,则依据
预设场景置信度确定所述任一地址数据对应的场景置信度。
[0037]可选地,所述装置还包括:
[0038]样本统计模块,用于所述根据预设场景字典对所述地址数据对应的目标场景进行匹配之前,统计样本数据源中样本地址数据的数据来源;
[0039]字典建立模块,用于获取所述数据来源中占比大于预设阈值或占比排名前预设数量的目标数据来源,并依据所述目标数据来源建立所述预设场景字典。
[0040]可选地,所述装置还包括:
[0041]数据抽取模块,用于所述基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度之前,获取所述数据源对应的全部目标场景,并在每种目标场景对应的地址数据中抽取部分地址数据;
[0042]准确率确定模块,用于对每种目标场景下抽取的部分地址数据进行场景标注,并基于所述场景标注以及所述部分地址数据对应的目标场景,确定每种目标场景对应的场景匹配准确率。
[0043]可选地,所述地址置信度确定模块,具体包括:
[0044]历史数据获取单元,用于提取任一地址数据对应的目标地址以及目标用户,并获取所述目标用户对应的目标历史数据源;
[0045]第三置信度确定单元,用于统计所述目标历史数据源本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种地址数据的清洗方法,其特征在于,包括:获取待清洗的数据源,其中,所述数据源包括至少一条地址数据,任一地址数据对应于任意一个目标用户;根据预设场景字典对所述地址数据进行场景匹配,并依据场景匹配结果确定所述地址数据对应的场景置信度;提取所述地址数据对应的目标地址,确定与所述地址数据对应的目标用户以及目标地址对应的地址置信度;根据所述场景置信度以及所述地址置信度,计算地址数据的目标置信度,并依据所述目标置信度确定所述目标用户对应的地址信息。2.根据权利要求1所述的方法,其特征在于,所述根据预设场景字典对所述地址数据对应的目标场景进行匹配,并依据匹配结果确定所述地址数据对应的场景置信度,具体包括:获取任一地址数据对应的目标场景,并查询所述预设场景字典中是否包含所述任一地址数据对应的目标场景;若所述预设场景字典中包含所述目标场景,则基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度;若所述预设场景字典中不包含所述目标场景,则依据预设场景置信度确定所述任一地址数据对应的场景置信度。3.根据权利要求2所述的方法,其特征在于,所述根据预设场景字典对所述地址数据对应的目标场景进行匹配之前,所述方法还包括:统计样本数据源中样本地址数据的数据来源;获取所述数据来源中占比大于预设阈值或占比排名前预设数量的目标数据来源,并依据所述目标数据来源建立所述预设场景字典。4.根据权利要求2所述的方法,其特征在于,所述基于所述目标场景对应的预设场景权重以及所述目标场景对应的场景匹配准确率,确定所述任一地址数据对应的场景置信度之前,所述方法还包括:获取所述数据源对应的全部目标场景,并在每种目标场景对应的地址数据中抽取部分地址数据;对每种目标场景下抽取的部分地址数据进行场景标注,并基于所述场景标注以及所述部分地址数据对应的目标场景,确定每种目标场景对应的场景匹配准确率。5.根据权利要求1所述的方法,其特征...

【专利技术属性】
技术研发人员:李鑫
申请(专利权)人:大箴杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1