【技术实现步骤摘要】
一种地址归一化及补充方法、装置、电子设备及存储介质
[0001]本申请涉及地址处理的
,尤其是涉及一种地址归一化及补充方法、装置、电子设备及存储介质。
技术介绍
[0002]归一化是一种简化计算的方式,需要处理的数据经过处理后(通过某种算法)限制一定范围内。
[0003]在日常生活中,一些约定俗成的称谓能够准确地标识一个地址,而一个地址也会同时具有多种称谓,如简称、俗称、新旧称谓、前后顺序不一致、以地标物作为地址等。这些情况会使一个地址信息存在多种称谓,从而会在分析一个地址信息时带来较大干扰。
技术实现思路
[0004]根据本申请的实施例,提供了一种地址归一化及补充方案。
[0005]在本申请的第一方面,提供了一种地址归一化及补充方法。该方法包括:
[0006]获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;
[0007]根据预设的第一处理规则和所述待处理数据集获得多个关联地址;
[0008]根据预设的第二处理规则和多个关联地址获得目标地址;
[0009]修改所述同一关联地址中的另一地址数据为目标地址。
[0010]在一种可能的实现方式中,所述获取待处理数据集的方法包括:
[0011]获取关系型数据集;
[0012]根据预设的NLP命名实体识别模块获取非关系数据集;
[0013]合并所述关系型数据和所述非关系型数据集获得初始数据集;
[0014]获取初始数据集中具有同一对象的地址数据,得到待处理 ...
【技术保护点】
【技术特征摘要】
1.一种地址归一化及补充方法,其特征在于,所述方法包括:获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;根据预设的第一处理规则和所述待处理数据集获得多个关联地址;根据预设的第二处理规则和多个关联地址获得目标地址;修改所述同一关联地址中的另一地址数据为目标地址。2.根据权利要求1所述的一种地址归一化及补充方法,其特征在于,所述获取待处理数据集的方法包括:获取关系型数据集;根据预设的NLP命名实体识别模块获取非关系数据集;合并所述关系型数据和所述非关系型数据集获得初始数据集;获取初始数据集中具有同一对象的地址数据,得到待处理数据集。3.根据权利要求2所述的一种地址归一化及补充方法,其特征在于,根据预设的第一处理规则和所述待处理数据集获得多个关联地址的方法包括:删去所述待处理数据集中相同的地名和数字编码;根据组合数公式获得个关联地址,其中m为所述待处理数据集中数据的个数,n为关联地址中地址的个数,所述m大于1,所述n为2。4.根据权利要求2所述的一种地址归一化及补充方法,其特征在于,所述根据预设的第二处理规则和多个关联地址获得目标地址的方法包括:根据预设的词向量模型获取所述多个关联地址的相似度S
AB
′
;在所述关联地址的相似度大于预设的相似度阈值时,获取所述关联地址的可归一评估值;在所述可归一评估值大于预设的归一阈值时,获取可归一评估值最大的关联地址;根据选定指令选择评估值最大的关联地址中的其中一个地址作为目标地址。5.根据权利要求4所述的一种地址归一化及补充方法,其特征在于,所述获取所述关联地址的可归一评估值的方法包括:获取所述关联地址的地址关系网络关联度;U
AB
′
为所述关联地址的地址关系网络关联度,C
A
′
为关联地址中其中一个地址在初始数据集中的关联人数,C
B
′
为关联地址中另一地址在初始数据集中的关联人数,C
u
为关联地址中具有相同对象的关联人数;所述地址关系网络关联度的计算公式为:计算所述关联地址的时间相关叠加概率;获取两个相邻的关联地址之间的时间间隔G
AB
′
【专利技术属性】
技术研发人员:徐涛,吴楠,蒋修强,胡大明,卢小军,王金涛,王方舟,
申请(专利权)人:北京码牛科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。