【技术实现步骤摘要】
一种基于地点POI的大数据解析地址文本的方法
本专利技术涉及地址文本解析
,具体为一种基于地点POI的大数据解析地址文本的方法。
技术介绍
对于某些用户量庞大的邮政、物流公司或者电商企业等,存在大量的用户包裹地址,往往需要根据这些地址文本,统计和分析用户的分布情况。其中的难点就是如何精确定位这些地址文本。由于这些地址可能来自于第三方电商平台或由于用户输入错误,导致文本数据难以解析,这些地址文本的特点是:没有固定的格式,包含了随机的错字,地点的别名,甚至是不存在的地点。对这些地址直接使用第三方地图公司接口解析定位,会造成大量的偏差,无法达到统计分析的目的,使用其他常规的方法均难以准确分析处理。鉴于此,我们提出一种基于地点POI的大数据解析地址文本的方法。
技术实现思路
本专利技术的目的在于提供一种基于地点POI的大数据解析地址文本的方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于地点POI的大数据解析地址文本的方法,包括如下步骤:S1、 ...
【技术保护点】
1.一种基于地点POI的大数据解析地址文本的方法,其特征在于:包括如下步骤:/nS1、城市POI基础数据处理;/nS2、匹配地址文本解析;/nS3、数据分析及可视化展示。/n
【技术特征摘要】
1.一种基于地点POI的大数据解析地址文本的方法,其特征在于:包括如下步骤:
S1、城市POI基础数据处理;
S2、匹配地址文本解析;
S3、数据分析及可视化展示。
2.如权利要求1所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S1中城市POI基础数据处理具体包括如下步骤:
S11:POI数据爬取;
S12:POI名称优化;
S13:POI别名自动处理;
S14:POI人工调优。
3.如权利要求2所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S11中POI数据爬取的具体操作为:
a.对百度,高德地图,以多次、不同范围的矩形扫描方式爬取地点POI,同时可继续探索其他数据获取方式,包括其他网站,政府统计数据;
b.将爬取的POI数据分类存储到数据库。
4.如权利要求2所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S12中POI名称优化的具体操作为:
a.去除明显无效及重复的数据;
b.POI名有包含关系,判断距离,如小于200米则合并且处理;
c.名称含“安徽省”、“合肥市”的,优化为“省”及“市”;针对地产类:如有且只有含有“一期”、“一栋”、“A座”,则去除“一期”、“一栋”、“A座”;
d.针对地产类写字楼:自动合并“A座”、“A栋”并重命名,去掉“B座”、“C座”等。
5.如权利要求2所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S13中POI别名自动处理的具体操作为:
1)针对地产类:
a.智能提取“-”及“·”中的前缀,如“万科-金色名郡”,提取“万科”并保存到tag_poi;
b.遇到类似“万科-金色名郡”、“万科金色名郡”,智能添加备注“金色名郡”;
2)针对政府单位类:
a.XX村村民员会,可简称为XX村委;
b.XX镇委员会,可简称为XX镇委、XX市委;
c.XX镇纪律检查委员会,可简称为XX镇纪委、XX市纪委;
d.XX镇人民政府,可简称为XX镇政府、XX市政府。
6.如权利要求2所述的基于地点POI的大数据解析地址文本的方法,其特征在于:S14中POI管理界面的具体操作为:WEB端给管理员,用于人工补充POI、...
【专利技术属性】
技术研发人员:刘超群,
申请(专利权)人:合肥市智享亿云信息科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。