【技术实现步骤摘要】
地址数据处理方法和装置、电子设备和存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种地址数据处理方法和装置、电子设备和存储介质。
技术介绍
[0002]当前地址解析领域缺乏统一高效的地址匹配标准的弊端,主流的地址解析技术倾向于构建五级区划、道路部分以及局部区域之间复杂的多元关系,构建一套能唯一确定目标地点的地址要素划分新体系,将不同描述的地址转换成能为计算机和人均易于识别的标准地址。
[0003]然而,现有技术对于缺失地址要素的地址,均将其视为无效地址,无法挖掘其中的有效信息,数据利用率低。另外,现有技术的地址纠错机制简单地利用了地址的上下文信息,当上下文存在信息缺失时,纠错机制就无法实现。一个地址或者地址要素通常拥有多个满足一定相似性的描述集合,当前主流方法在处理时,要么采用放弃相似度计算的字符串重合度匹配,要么计算相似度时准确率偏低。
[0004]因此,现有技术存在对地址数据利用率低,数据处理不准确,进而无法满足地址标准化、统一化需求的问题。
技术实现思路
[0005]本申请 ...
【技术保护点】
【技术特征摘要】
1.一种地址数据处理方法,其特征在于,所述方法包括:获取当前地址的初始结构化数据;通过标准结构化地址库对所述初始结构化数据进行信息补全,得到增强后的地址数据,其中,所述标准结构化地址库包含标准地址数据;对所述增强后的地址数据进行纠错处理,得到纠错后的地址数据;判断所述纠错后的地址数据中地址要素是否完整;在所述纠错后的地址数据中地址要素完整的情况下,将所述纠错后的地址数据与所述标准结构化地址库中的所述标准地址数据进行相似度匹配,得到目标地址数据。2.根据权利要求1所述的方法,其特征在于,在所述通过标准结构化地址库对所述初始结构化数据进行信息补全之前,所述方法还包括:获取标准化地址要素,其中,所述标准化地址要素包括:区域划分地址和预设实体;获取所述区域划分地址之间的层级关系;获取所述区域划分地址与所述预设实体之间的关联关系;根据所述标准化地址要素、所述层级关系以及所述关联关系,建立所述标准结构化地址库。3.根据权利要求2所述的方法,其特征在于,所述将所述纠错后的地址数据与所述标准结构化地址库中的所述标准地址数据进行相似度匹配,得到目标地址数据,包括:将所述纠错后的地址数据与所述标准地址数据进行重合度匹配,输出与所述纠错后的地址数据的重合度高于预设阈值的相似地址数据;如果所述相似地址数据唯一,则将所述相似地址数据作为所述目标地址数据;如果所述相似地址数据不唯一,则分别计算所述相似地址数据与所述纠错后的地址数据的语义相似度;将所述语义相似度数值最高的所述相似地址数据作为所述目标地址数据。4.根据权利要求1所述的方法,其特征在于,所述获取当前地址的初始结构化数据,包括:获取所述当前地址;对所述当前地址的数据进行预处理,得到预处理后的地址数据;通过第一模型对所述预处理后的地址数据中的地址文本进行序列标注;根据所述序列标注,对所述预处理后的地址数据中的地址要素进行拆分,得到所述初始结构化数据。5.根据权利要求4所述的方法,其特征在于,所述通过标准结构化地址库对所述初始结构化数据进行信息补全,得到增强后的地址数据,包括:判断所述结构化数据中缺少的所述地址要素;通过所述标准结构化地址库对缺少的所述地址要素进行地址要素信息补全,得到所述增强后的地址数据。6.根据权利要求5所述的方法,其特征在于,所述对所述增强后的地址数据进行纠错处理,得到纠错后的地址数据,包括...
【专利技术属性】
技术研发人员:路兴,张天宇,王轼皓,胡泽婷,
申请(专利权)人:北京易华录信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。