一种基于地点POI的大数据解析地址文本的方法技术

技术编号:28295513 阅读:16 留言:0更新日期:2021-04-30 16:19
本发明专利技术涉及地址文本解析技术领域,具体为一种基于地点POI的大数据解析地址文本的方法,包括如下步骤:S1、城市POI基础数据处理;S2、匹配地址文本解析;S3、数据分析及可视化展示。本发明专利技术通过城市POI基础数据处理加匹配地址文本解析的方法,可实现对用户包裹地址的统计和分析,并可以精确定位地址文本,实现对用户包裹地址的精确分析统计,为邮政、物流公司或者电商企业等提供了有效的用户分布数据及画像,进而可为快递揽投部选址及人员配备提供决策依据。

【技术实现步骤摘要】
一种基于地点POI的大数据解析地址文本的方法
本专利技术涉及地址文本解析
,具体为一种基于地点POI的大数据解析地址文本的方法。
技术介绍
对于某些用户量庞大的邮政、物流公司或者电商企业等,存在大量的用户包裹地址,往往需要根据这些地址文本,统计和分析用户的分布情况。其中的难点就是如何精确定位这些地址文本。由于这些地址可能来自于第三方电商平台或由于用户输入错误,导致文本数据难以解析,这些地址文本的特点是:没有固定的格式,包含了随机的错字,地点的别名,甚至是不存在的地点。对这些地址直接使用第三方地图公司接口解析定位,会造成大量的偏差,无法达到统计分析的目的,使用其他常规的方法均难以准确分析处理。鉴于此,我们提出一种基于地点POI的大数据解析地址文本的方法。
技术实现思路
本专利技术的目的在于提供一种基于地点POI的大数据解析地址文本的方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于地点POI的大数据解析地址文本的方法,包括如下步骤:S1、城市POI基础数据处理;S2、匹配地址文本解析;S3、数据分析及可视化展示。作为本专利技术优选的技术方案,S1中城市POI基础数据处理具体包括如下步骤:S11:POI数据爬取;S12:POI名称优化;S13:POI别名自动处理;S14:POI人工调优。作为本专利技术优选的技术方案,S11中POI数据爬取的具体操作为:a.对百度,高德地图,以多次、不同范围的矩形扫描方式爬取地点POI,同时可继续探索其他数据获取方式,包括其他网站,政府统计数据;b.将爬取的POI数据分类存储到数据库。作为本专利技术优选的技术方案,S12中POI名称优化的具体操作为:a.去除明显无效及重复的数据;b.POI名有包含关系,判断距离,如小于200米则合并且处理;c.名称含“安徽省”、“合肥市”的,优化为“省”及“市”;针对地产类:如有且只有含有“一期”、“一栋”、“A座”,则去除“一期”、“一栋”、“A座”;d.针对地产类写字楼:自动合并“A座”、“A栋”并重命名,去掉“B座”、“C座”等。作为本专利技术优选的技术方案,S13中POI别名自动处理的具体操作为:1)针对地产类:a.智能提取“-”及“·”中的前缀,如“万科-金色名郡”,提取“万科”并保存到tag_poi;b.遇到类似“万科-金色名郡”、“万科金色名郡”,智能添加备注“金色名郡”;2)针对政府单位类:a.XX村村民员会,可简称为XX村委;b.XX镇委员会,可简称为XX镇委、XX市委;c.XX镇纪律检查委员会,可简称为XX镇纪委、XX市纪委;d.XX镇人民政府,可简称为XX镇政府、XX市政府。作为本专利技术优选的技术方案,S14中POI管理界面的具体操作为:WEB端给管理员,用于人工补充POI、修正POI别名和备注。作为本专利技术优选的技术方案,S2中匹配地址文本解析具体包括如下步骤:S21:处理流程;S22:地址最终定位处理。作为本专利技术优选的技术方案,S21中处理流程的具体操作为:1)数据预处理,抛弃明显错误的地址,如空白、只有省市区道路名的地址等分类单独存储;2)路口、交叉口、路号全称匹配,以实际路口、交叉口、道路名+路号基础数据,统一格式化处理,匹配地址对应的道路信息;3)道路尾部路号补齐,处理包含如“长江西路339”的地址,补齐为“长江西路339号”;4)道路拼音匹配,地址中文拼音匹配道路名+路号;5)道路智能匹配,地址模糊匹配道路名+路号、或路口,AI文本相似度匹配,处理错字,多字,少字的模糊匹配;6)POI全称别名匹配,其中房产类型优先匹配,poi名称长度优先匹配,特殊符号别名自动处理,获取地址对应的POI;7)POI全称、别名拼音匹配,住宅区、学校类型poi,参与拼音匹配;8)POI智能匹配,AI文本相似度匹配,模糊匹配,参与智能匹配的poi类型为住宅区、高校、综合医院。作为本专利技术优选的技术方案,S22中地址最终定位处理的具体操作为:1)POI全称匹配地址处理:地址当前匹配的POI,是否与匹配的道路信息对应,如果正确对应,则以POI定位,若不对应,以全称/补齐匹配的街道信息为准,其中住宅区类型以POI名称定位,无道路信息,以POI定位;2)POI别名匹配地址处理:存在全称匹配道路信息,以道路信息定位,否则,当存在多个别名匹配到的POI,以长度最大的定位,无道路信息,以POI定位;3)POI模糊匹配地址处理:存在道路全称匹配以道路信息定位,不存在道路信息,多个POI名称最长定位,道路模糊和POI模糊匹配名称最长定位;4)POI未匹配地址处理:道路全称匹配定位,道路模糊匹配定位,最终剩余未处理;5)POI重名处理:地址匹配到的POI,存在多个重名时,需要根据区域道路信息确定,若无法区分,则丢弃,地址与POI所属区域不同,丢弃。与现有技术相比,本专利技术的有益效果是:本专利技术通过城市POI基础数据处理加匹配地址文本解析的方法,可实现对用户包裹地址的统计和分析,并可以精确定位地址文本,实现对用户包裹地址的精确分析统计,为邮政、物流公司或者电商企业等提供了有效的用户分布数据及画像,进而可为快递揽投部选址及人员配备提供决策依据。附图说明图1为本专利技术的流程图。具体实施方式下面将结合本专利技术实施例对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例提供如下技术方案:一种基于地点POI的大数据解析地址文本的方法,包括如下步骤:S1、城市POI基础数据处理;S2、匹配地址文本解析;S3、数据分析及可视化展示。作为本实施例优选的技术方案,S1中城市POI基础数据处理具体包括如下步骤:S11:POI数据爬取;S12:POI名称优化;S13:POI别名自动处理;S14:POI人工调优。作为本实施例优选的技术方案,S11中POI数据爬取的具体操作为:a.对百度,高德地图,以多次、不同范围的矩形扫描方式爬取地点POI,同时可继续探索其他数据获取方式,包括其他网站,政府统计数据;b.将爬取的POI数据分类存储到数据库。作为本实施例优选的技术方案,S12中POI名称优化的具体操作为:a.去除明显无效及重复的数据;b.POI名有包含关系,判断距离,如小于200米则合并且处理;c.名称含“安徽省”、“合肥市”本文档来自技高网...

【技术保护点】
1.一种基于地点POI的大数据解析地址文本的方法,其特征在于:包括如下步骤:/nS1、城市POI基础数据处理;/nS2、匹配地址文本解析;/nS3、数据分析及可视化展示。/n

【技术特征摘要】
1.一种基于地点POI的大数据解析地址文本的方法,其特征在于:包括如下步骤:
S1、城市POI基础数据处理;
S2、匹配地址文本解析;
S3、数据分析及可视化展示。


2.如权利要求1所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S1中城市POI基础数据处理具体包括如下步骤:
S11:POI数据爬取;
S12:POI名称优化;
S13:POI别名自动处理;
S14:POI人工调优。


3.如权利要求2所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S11中POI数据爬取的具体操作为:
a.对百度,高德地图,以多次、不同范围的矩形扫描方式爬取地点POI,同时可继续探索其他数据获取方式,包括其他网站,政府统计数据;
b.将爬取的POI数据分类存储到数据库。


4.如权利要求2所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S12中POI名称优化的具体操作为:
a.去除明显无效及重复的数据;
b.POI名有包含关系,判断距离,如小于200米则合并且处理;
c.名称含“安徽省”、“合肥市”的,优化为“省”及“市”;针对地产类:如有且只有含有“一期”、“一栋”、“A座”,则去除“一期”、“一栋”、“A座”;
d.针对地产类写字楼:自动合并“A座”、“A栋”并重命名,去掉“B座”、“C座”等。


5.如权利要求2所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S13中POI别名自动处理的具体操作为:
1)针对地产类:
a.智能提取“-”及“·”中的前缀,如“万科-金色名郡”,提取“万科”并保存到tag_poi;
b.遇到类似“万科-金色名郡”、“万科金色名郡”,智能添加备注“金色名郡”;
2)针对政府单位类:
a.XX村村民员会,可简称为XX村委;
b.XX镇委员会,可简称为XX镇委、XX市委;
c.XX镇纪律检查委员会,可简称为XX镇纪委、XX市纪委;
d.XX镇人民政府,可简称为XX镇政府、XX市政府。


6.如权利要求2所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S14中POI管理界面的具体操作为:WEB端给管理员,用于人工补充POI、...

【专利技术属性】
技术研发人员:刘超群
申请(专利权)人:合肥市智享亿云信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1