一种基于web数据挖掘的地理信息获取方法技术

技术编号:19745326 阅读:26 留言:0更新日期:2018-12-12 04:45
本发明专利技术公开了属于计算机应用技术领域的一种基于web数据挖掘的地理信息获取方法,该地理信息获取方法一共有四个模块,POI源数据输入模块,提取所关注区域的相关地理信息,为后续模块准备数据;在POI地址提取模块中,从与POI类型和街道相关的网页中提取POI地址;POI名称提取模块是利用相关网页的标题来提取有用的名称信息。最后,可视化模块把已经提取的POI地址‑名称信息进行可视化,展示和评估提取效果。本发明专利技术获得了数据完整性和准确性相对更好的结果,而且可以提取出谷歌地图中缺失的数据,本发明专利技术有很高的实用价值。

【技术实现步骤摘要】
一种基于web数据挖掘的地理信息获取方法
本专利技术属于计算机应用
,特别涉及一种基于web数据挖掘的地理信息获取方法。
技术介绍
当前,地理信息领域的POI(兴趣点)信息在各种应用中发挥着非常关键的作用,比如,基于POI的定位、导航、搜索服务,都需要依赖大量而准确的POI信息。对于这些需求,需要自动化的POI信息提取方法。互联网上,一些开放的地图服务(例如,GoogleMaps,OpenStreetMap等)会提供POI(兴趣点)信息,但是这些服务的数据要么花费巨额的费用来实地采集或购买,要么由使用服务的志愿者提供。但采用实时采集的方法采集的数据缺乏时效性,而由志愿者提供的数据通常因为缺失严重而无法直接使用。在互联网中,由用户生成的非结构化数据与日俱增,而地理空间信息(诸如地名,地址和电话号码等)在网页中通常以半结构化的方式存在,嵌入在Web数据和文档中的地理信息的自动识别和结构化提取仍然是一件很困难的任务。因此,从互联网中自动提取地理空间信息的技术变得越来越重要。对于从网络的非结构化的内容中提取的地理信息,怎样界定地理信息的确切内容也是一大挑战,这通常被称为命名实体识别。目前的命名实体识别方法主要有两种:基于规则和词典的方法、基于统计的方法,前者需要语言专家构造的规则模板和巨大的词典,而后者需要一个巨大的语料库来训练模型。综上,目前,在基于网络中的非结构化数据源的地理信息提取方面,还缺少有效而实用的方法,而针对POI信息提取,网络中的非结构化源的数据则可有效解决时效性问题。
技术实现思路
本专利技术的目的是提出一种基于web数据挖掘的地理信息获取方法,其特征在于,包括步骤如下:步骤1:设定所关注的POI类型,提取所关注区域的街道、城市、州或省和国家信息;步骤2:基于步骤1的数据,利用网络搜索引擎的API(应用程序编程接口),获取POI的街道地址信息;步骤3:基于步骤2的数据,利用网路搜索引擎的API,获取POI的名称信息;步骤4:利用地理编码工具,在地图上标出可视化POI的地址-名称信息。所述步骤1包括以下步骤:步骤A1:对于关注的区域,设定所搜索的POI的类型,包括学校、饭店、教堂;所述POI类型从Google公司提供的电子地图中搜索得到;此款电子地图能够提供含有全球城市政区、交通以及商业信息的矢量地图,其使用的POI类型包含90种,本步骤所述的POI类型与其相同或自定义POI类型;步骤A2:从OSM(OpenSreetMap)或BaiduMap中提取街道、城市、州或省和国家名称;OSM是一个网上地图协作计划,目标是创造一个内容自由且能让所有人编辑的世界地图;利用OSM的API下载所关注区域的信息,以XML格式存储,从中提取所需要的街道名、城市名、州或省名和国家名。所述步骤2包括以下步骤:步骤B1:选定所使用的搜索引擎。由于谷歌搜索引擎的适应性和丰富性,因此选用谷歌搜索引擎或Bing搜索引擎的API为搜索工具;步骤B2:确定搜索关键词组合,设定的关键词组合为“POI类型街道名城市名”,包含POI类型、街道名、城市名三个部分,均来自步骤B1所获取的;步骤B3:建立街道字典和地址模式,利用步骤B1提取的OSM中的信息,建立所关注区域的街道字典和统一的地址模式,街道字典中包含每条街道的方向、名称和类型,地址模式建立在街道地址之上,规定了区域内的地址所应遵循的模式,二者共同用于提取街道地址;步骤B4:提取搜索结果中的POI地址,利用选定的搜索引擎API中搜索关键词组合,得到对应的搜索结果,基于街道字典和地址模式在结果中提取POI地址。所述步骤3包括以下步骤:步骤C1:建立不相关网页过滤模型,针对后续步骤中的问题,此步骤发现若搜索关键词包含地址,则搜索结果包含大量的房地产信息网页,这些网页中的内容绝大多数是有关待售房屋的信息,在后续提取POI名称时,对提取速度和准确性会产生显著的消极影响;因此,在建立了一个基于URL(统一资源定位符)的网页过滤模型,首先,使用搜索引擎搜索任意一家房地产公司网站所包含的最近售卖的住宅,提取搜索结果中的URL,解析URL中的特征作为训练数据。然后,采用基于训练数据,使用机器学习方法,建立一个识别房地产网页的分类模型,用于过滤房地产网址;步骤C2:确定欲提取名称的搜索关键词,由于一个地址可能对应多个POI,因此需要先提取每个POI地址对应的多个可能的名称,实验发现,将POI地址作为搜索关键词时,其搜索结果的网页的标题中极有可能包含POI名称,而且名称基本位于标题的开头,这一步,设定的关键词为“POI地址”,即搜索POI地址对应的搜索结果。所述步骤4中,选择了谷歌地理编码工具名为GoogleFusionTables,对结果进行可视化展示或选择其他的ArcGIS地理编码工具,先将数据上传到该工具,在进行地理编码即将地址转化为经纬度后,数据将以不同的形式展示在地图上。综上,所述基于web数据挖掘的地理信息获取方法一共有四个模块,POI源数据输入模块,提取所关注区域的相关地理信息,为后续模块准备数据;在POI地址提取模块中,从与POI类型和街道相关的网页中提取POI地址;POI名称提取模块是利用相关网页的标题来提取有用的名称信息。最后,可视化模块把已经提取的POI地址-名称信息进行可视化,目的是展示和评估提取效果。本专利技术的有益效果是本专利技术利用预先提取的街道信息,构建街道字典和地址模式用于提取街道地址;采用先提取可能名称然后验证的方法,解决了一个地址对应的多个POI名称的问题;采用机器学习的分类方法,过滤了不相关的房地产网页的干扰;最后,利用地址编码工具,完成了数据的可视化展示。实验中,我们分别在纽约和旧金山选取了两个区域进行实验,对应建立这两个区域的地址-名称数据集,并以谷歌地图的数据为基准,在精确率、召回率和F1-Score三个方面与OpenStreetMap和Wikimapia的数据进行比较。结果表明,我们的方法获得了数据完整性和准确性相对更好的结果,而且我们的方法可以提取出谷歌地图中缺失的数据,这说明我们的方法有很高的实用价值。附图说明图1为获取地理信息的四个模块的相关示意图。图2为POI地址挖掘示意图。图3为街道地址地理信息模块示意图。图4为街道地址房地产网页的分类模型。图5为POI的可能名称挖掘数据模型。图6为POI真实名称挖掘的数据模型。具体实施方式本专利技术提出了一种基于web数据挖掘的地理信息获取方法,下面结合附图,对实施例作详细说明。图1所示为获取地理信息的四个模块的相关示意图;本方法利用搜索引擎来搜索与POI类型和街道相关的网页,然后解析网页提取街道地址,再利用街道地址的搜索结果提取对应的POI名称,从而构建POI的地址-名称数据集,最后,利用地址编码工具进行数据的可视化展示。实施例步骤1:设定POI类型,获取街道、城市、州(省)和国家名称。所述步骤1包括以下子步骤:子步骤A1:设定POI类型,从Google公司提供的电子地图中搜索其使用的,POI类型,在合并了相似度较高的POI类型之后,采用谷歌地图的90个POI类型中的41个rental,store,night_club,library,police,station,city_hall,food,painte本文档来自技高网...

【技术保护点】
1.一种基于web数据挖掘的地理信息获取方法,其特征在于,包括步骤如下:步骤1:设定所关注的兴趣点POI类型,提取所关注区域的街道、城市、州或省和国家信息;步骤2:基于步骤1的数据,利用网络搜索引擎的应用程序编程接口API,获取POI的街道地址信息;步骤3:基于步骤2的数据,利用网路搜索引擎的API,获取POI的名称信息;步骤4:利用地理编码工具,在地图上标出可视化POI的地址‑名称信息。

【技术特征摘要】
1.一种基于web数据挖掘的地理信息获取方法,其特征在于,包括步骤如下:步骤1:设定所关注的兴趣点POI类型,提取所关注区域的街道、城市、州或省和国家信息;步骤2:基于步骤1的数据,利用网络搜索引擎的应用程序编程接口API,获取POI的街道地址信息;步骤3:基于步骤2的数据,利用网路搜索引擎的API,获取POI的名称信息;步骤4:利用地理编码工具,在地图上标出可视化POI的地址-名称信息。2.根据权利要求1所述基于web数据挖掘的地理信息获取方法,其特征在于,所述步骤1包括以下步骤:步骤A1:对于关注的区域,设定所搜索的POI的类型,包括学校、饭店、教堂;所述POI类型从Google公司提供的电子地图中搜索得到;此款电子地图能够提供含有全球城市政区、交通以及商业信息的矢量地图,其使用的POI类型包含90种,本步骤所述的POI类型与其相同或自定义POI类型;步骤A2:从OSM(OpenSreetMap)或BaiduMap中提取街道、城市、州或省和国家名称;OSM是一个网上地图协作计划,目标是创造一个内容自由且能让所有人编辑的世界地图;利用OSM的API下载所关注区域的信息,以XML格式存储,从中提取所需要的街道名、城市名、州或省名和国家名。3.根据权利要求1所述基于web数据挖掘的地理信息获取方法,其特征在于,所述步骤2包括以下步骤:步骤B1:选定所使用的搜索引擎。由于谷歌搜索引擎的适应性和丰富性,因此选用谷歌搜索引擎或Bing搜索引擎的API为搜索工具;步骤B2:确定搜索关键词组合,设定的关键词组合为“POI类型街道名城市名”,包含POI类型、街道名、城市名三个部分,均来自步骤B1所获取的;步骤B3:建立街道字典和地址模式,利用步骤B1提取的OSM中的信息,建立所关注区域的街道字典...

【专利技术属性】
技术研发人员:张莹张昕胡祥杨普海高铭壑马群飞汪澄
申请(专利权)人:华北电力大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1