POI数据处理方法、装置、设备及介质制造方法及图纸

技术编号:24799385 阅读:56 留言:0更新日期:2020-07-07 21:01
本发明专利技术实施例提供了一种POI数据处理方法、装置、设备及介质。该POI数据处理方法包括:根据预设的最小元素集,将兴趣点POI数据对中的每个POI划分为基础字段,并确定每个POI的基础字段所属的最小元素;根据每个POI的基础字段所属的最小元素以及最小元素组合情形,确定每个POI的基础字段所属的最小元素组合情形;根据每个POI的基础字段所属的最小元素组合情形,对每个POI的基础字段进行拆分,确定每个POI的结构化字段;根据每个POI的结构化字段,确定每个POI的结构字段之间的相似度值,并根据相似度值,判断POI数据对是否为重复数据对。本发明专利技术实施例能够提高数据处理效率,并精准判断重复POI数据对,不需要通过人工重复确定POI数据对,缩短数据整体作业处理周期。

【技术实现步骤摘要】
POI数据处理方法、装置、设备及介质
本专利技术涉及电子地图
,尤其涉及一种POI数据处理方法、装置、设备及介质。
技术介绍
随着互联网与物联网技术的发展,越来越多的用户花费大量的时间与精力体验各类互联网与物联网的产品,而产品体验的核心是真实地物抽象而来的兴趣点(PointofInterest,POI)。经实验验证,影响用户体验效果的关键因素包括:POI数据的重复率、正确率、现势性程度、基础字段完备率、增值字段完备率,在这里,POI数据重复率的高低是影响用户体验度的高低最核心、最重要的影响因子。目前,POI数据供应商在处理POI数据重复问题时,计算POI中包括的名称、地址、电话、坐标等基础字段的相似度值,并将每个基础字段的相似度值进行线性组合,得出POI数据对的相似度计算总值。当前数据供应商主要使用的相似度算法能够识别一定程度的重复数据对,但是计算效率低,且不具有语义特征。同时,为保证数据质量,当前的相似度算法将导致大量疑似重复数据对生成,需要数据供应商提供质检员进行人工处理,从疑似重复数据中确认真正的重复数据。因此,使用本文档来自技高网...

【技术保护点】
1.一种POI数据处理方法,其特征在于,所述方法包括:/n根据预设的最小元素集,将兴趣点POI数据对中的每个POI划分为基础字段,并确定所述每个POI的基础字段所属的最小元素;/n根据所述每个POI的基础字段所属的最小元素以及元素组合情形库中的最小元素组合情形,确定每个POI的基础字段所属的最小元素组合情形;/n根据所述每个POI的基础字段所属的最小元素组合情形,对所述每个POI的基础字段进行拆分,确定所述每个POI的结构化字段;/n根据所述每个POI的结构化字段,确定每个POI的结构字段之间的相似度值,并根据所述相似度值,判断所述POI数据对是否为重复数据对。/n

【技术特征摘要】
1.一种POI数据处理方法,其特征在于,所述方法包括:
根据预设的最小元素集,将兴趣点POI数据对中的每个POI划分为基础字段,并确定所述每个POI的基础字段所属的最小元素;
根据所述每个POI的基础字段所属的最小元素以及元素组合情形库中的最小元素组合情形,确定每个POI的基础字段所属的最小元素组合情形;
根据所述每个POI的基础字段所属的最小元素组合情形,对所述每个POI的基础字段进行拆分,确定所述每个POI的结构化字段;
根据所述每个POI的结构化字段,确定每个POI的结构字段之间的相似度值,并根据所述相似度值,判断所述POI数据对是否为重复数据对。


2.根据权利要求1所述的方法,其特征在于,所述基础字段包括如下字段中的一项或多项:POI名称字段、POI地址字段、POI电话号码字段。


3.根据权利要求2所述的方法,其特征在于,所述POI名称字段包括以下最小元素中的至少一种最小元素:本地地名、外地地名、POI名称前缀、品牌纯名、分类词以及POI名称后缀;
根据所述每个POI的基础字段所属的最小元素组合情形,对所述每个POI的基础字段进行拆分,确定所述每个POI的结构化字段,包括:
根据预设的地名词库以及所述分类词词库,识别所述每个POI对应的POI名称字段中除括号以外的错误字符,并将所述错误字符删除;
判断所述每个POI对应的名称字段是否包含括号,对于名称字段中包含括号的POI,将所述括号部分的名称字段以及非括号部分的名称字段进行拆分;
识别所述每个POI对应的名称字段中的分类词,将识别出来的分类词删除,并拆分剩余的名称字段中的地名,判断并记录所述地名在所述名称字段中的位置;
根据所述每个POI中最小元素之间的相对位置关系,识别所述名称前缀以及所述名称后缀。


4.根据权利要求2所述的方法,其特征在于,所述POI地址字段包括以下至少一种最小元素:省、市、区/县、乡镇/街道、道路、道路门牌号、小区/楼宇名/单位名/自然村、门、楼栋号/村内编号、房号/户名、楼层号、方位词;
当所述基础字段包括POI地址字段的时,对所述POI的基础字段进行拆分之前,所述方法还包括:
调取地名词库,根据所述地名词库,判断所述POI与省、市、区、乡镇轮廓之间的位置关系;
根据所述位置关系,确定所述POI所属的省、市、区以及乡镇。


5.根据权利要求4所述的方法,其特征在于,所述根据所述每个POI的基础字段所属的最小元素组合情形,对所述每个POI的基础字段进行拆分,确定所述每个POI的结构化字段,包括:
根据所述地名词库,识别所述每个POI对应的POI地址字段中除括号以外的错误字符,并将所述错误字符删除;
判断所述每个POI对应的地址字段是否包含括号,在所述每个POI对应的地址字段包含括号的情况下,将所述括号部分的地址字段以及非括号部分的地址字段进行拆分;
识别所述每个POI对应的地址字段中的省、市、区/县、乡镇/街道、道路、道路门牌号,将识别出来的省、市、区/县、乡镇/街道、道路、道路门牌号删除,并拆分剩余的地址字段中的小区/楼宇名/单位名/自然村、门、楼栋号/村内编号、房号/户名、楼层号;
识别所述每个POI对应的地址字段中的方位词,并拆分所述方位词。


6.根据权利要求1所述的方法,其特征在于,所述对所述POI的基础字段进行拆分,确定所述每个POI的结构化字...

【专利技术属性】
技术研发人员:王世民
申请(专利权)人:中国移动通信集团辽宁有限公司中国移动通信集团有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1