一种在电子地图中爬取地标信息的系统和方法技术方案

技术编号:15724841 阅读:34 留言:0更新日期:2017-06-29 11:19
一种在电子地图中爬取地标信息的系统,包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取,查找符合用户设置的地标命名规则关键词的地标信息。本发明专利技术还提供根据所述系统爬取地标信息的方法。本发明专利技术提出的技术方案能够爬取电子地图上较新的所匹配的不同类型的地标数据,并且通过获取的地标信息数据量调整坐标移动步长,模拟人工缩放操作,能够提高电子地图数据的爬取效率。

【技术实现步骤摘要】
一种在电子地图中爬取地标信息的系统和方法
本专利技术属于信息搜索
,具体涉及一种在电子地图中爬取地标信息的系统和方法。
技术介绍
网络爬虫,或者称爬虫,是一种自动提取网页的程序,用于为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分。传统爬虫是从一个或若干初始网页的URL(统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。目前,若要获取某类地标信息,如全国学校地理位置信息,需要通过网络爬虫在教育类网站中爬取所有学校信息,但是,这类网站信息很可能没有更新,导致获得的信息不全或者不准确。并且,若需要获取其他类地标信息,例如全国酒店地理位置信息,需要通过网络爬虫在酒店类网站中爬取所有酒店信息,因此,需要重新编写网络爬虫程序,不仅需要重复劳动,而且还同样面临网站信息未更新导致的获得信息不全或者不准确的问题。
技术实现思路
为了解决现有技术中存在的网站信息未更新导致的获取信息不全或不准确以及更换地标信息需要重新编写网络爬虫程序的技术问题,本专利技术实施例提供了一种在电子地图中爬取地标信息的系统和方法,技术方案如下。一种在电子地图中爬取地标信息的系统,包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,所述系统用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取;调度器用于向地图信息获取管理器提供待抓取的地图坐标区域;地图信息获取管理器用于从电子地图中获取调度器提供的待抓取的地图坐标区域的地图数据;地图信息解析器用于对地图信息获取管理器获取到的地图数据进行解析,提取地标信息;结果处理器用于对地图信息解析器提取的地标信息进行处理,查找与地标命名规则关键词匹配的地标信息。进一步,本专利技术实施例的系统包括搜索范围控制器,搜索范围控制器用于对指定地图坐标范围和地标命名规则关键词进行管理,并确定调度器向地图信息获取管理器提供的待抓取的地图坐标区域。进一步,在当前地图坐标区域抓取结束时,搜索范围控制器向调度器反馈在指定地图坐标范围中的新的待抓取的地图坐标区域。进一步,调度器根据地图信息解析器解析提取的地标信息数据量确定坐标移动步长,并反馈坐标移动步长和当前地图中心点给搜索范围控制器;搜索范围控制器根据调度器反馈的坐标移动步长信息和当前地图中心点,确定新的地图中心点和新的待抓取的地图坐标区域,并将新的地图中心点和新的待抓取的地图坐标区域反馈给调度器。进一步,所述系统还包括存储器,存储预设的与地标信息数据量对应的多个阈值,每个阈值区间对应一个坐标移动步长。本专利技术实施例还提供一种在电子地图中爬取地标信息的方法,该方法包括如下步骤:步骤S21:获取指定的地图坐标范围,并获取地标命名规则关键字;步骤S22:根据待抓取的地图坐标区域,获取待抓取的地图坐标区域的地图数据;步骤S23:对获取到的地图数据进行解析,提取地标信息;步骤S24:对提取的地标信息进行判断,将与地标命名规则关键字匹配的地标信息保存到结果集中;步骤S25:获取新的待抓取的地图坐标区域,返回步骤S23,直到完成指定地图坐标范围的地标信息的爬取。进一步地,步骤S25中,根据解析提取的地标信息数据量,进行坐标移动步长的调整。进一步地,步骤S25中,还结合坐标点地理位置信息进行坐标移动步长的调整。进一步地,根据解析提取的地标信息数据量和/或坐标点地理位置信息,预先设置有多个阈值,每个阈值区间对应一个坐标移动步长。进一步地,在步骤S23中,对获取到的地图数据进行解析时,还获取其中的链接地址,通过访问链接地址提取其中的地标信息。本专利技术实施例的有益效果:本专利技术实施例提出的技术方案通过爬取电子地图上的数据,获取某类地标信息,能够获取较新的数据,而且由于是对电子地图中的数据进行爬取,所以能够查找出世界不同区域的地标数据,这样可以不用对爬取程序做任何修改就能够获取到较新的不同类型的地标数据。另外,通过获取的地标信息数据量调整坐标移动步长,模拟人工缩放操作,能够提高电子地图数据的爬取效率。附图说明图1为本专利技术实施例提出的在电子地图中爬取地标信息的系统的结构框图;图2为本专利技术实施例提出在电子地图中爬取地标信息的方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。但本领域技术人员知晓,本专利技术并不局限于附图和以下实施例。本专利技术实施例提出的在电子地图中爬取地标信息的系统,用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取,如图1所示,该系统包括:地图信息获取管理器11、地图信息解析器12、调度器13、搜索范围控制器14和结果处理器15。其中,地图信息获取管理器11用于从电子地图中获取调度器13提供的待抓取的地图坐标区域的地图数据。待抓取的地图坐标区域位于指定地图坐标范围内,坐标范围可以是用地理坐标表示的坐标范围,地理坐标是用纬度、经度表示地面点位置的球面坐标;也可以是地理区域表示的坐标范围,地理区域例如是南美洲、北美洲、亚洲等;还可以是用行政区域表示的坐标范围,例如国家、州或省、市等。电子地图可以是但不限于百度地图、谷歌(Google)地图。地图数据包括图片、JSON数据或者其他文本格式内容。地图信息解析器12用于对地图信息获取管理器11获取到的地图数据进行解析,提取地标信息。地标对应于电子地图上的建筑物,建筑物包括学校、宾馆、公园、博物馆等等。结果处理器15用于对地图信息解析器12提取的地标信息进行处理,查找与地标命名规则关键词匹配的地标信息,并向调度器13反馈处理结果。所述处理包括对地图信息解析器12提取的地标信息的计算、统计、区域划分等。搜索范围控制器14用于对指定地图坐标范围和地标命名规则关键词进行管理,并确定调度器13向地图信息获取管理器11提供的待抓取的地图坐标区域。在当前地图坐标区域抓取结束时,进行坐标移动。搜索范围控制14根据调度器13反馈的坐标移动步长信息和当前地图中心点,确定新的地图中心点和新的待抓取的地图坐标区域,并将新的地图中心点和新的待抓取的地图坐标区域反馈给调度器13,实现坐标移动。地标命名规则关键字表示地标类别,例如对于地标命名规则关键字为学校时,地标命名规则关键字对应的地标包括幼儿园、小学、中学、大学、高中、初中、学院、研究院(或所)等。调度器13用于向地图信息获取管理器11提供待抓取的地图坐标区域;以及根据地图信息解析器12提取的地标信息数据量确定坐标移动步长并反馈给搜索范围控制器14,当提取的地标信息数据量较大时,减小步长,以便于系统的数据处理,当提取的地标信息数据量较小时,增大步长。由此,本专利技术实施例的在电子地图中爬取地标信息的系统还可以包括存储器,存储预设的与地标信息数本文档来自技高网...
一种在电子地图中爬取地标信息的系统和方法

【技术保护点】
一种在电子地图中爬取地标信息的系统,其特征在于:包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,所述系统用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取;调度器用于向地图信息获取管理器提供待抓取的地图坐标区域;地图信息获取管理器用于从电子地图中获取调度器提供的待抓取的地图坐标区域的地图数据;地图信息解析器用于对地图信息获取管理器获取到的地图数据进行解析,提取地标信息;结果处理器用于对地图信息解析器提取的地标信息进行处理,查找与地标命名规则关键词匹配的地标信息。

【技术特征摘要】
1.一种在电子地图中爬取地标信息的系统,其特征在于:包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,所述系统用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取;调度器用于向地图信息获取管理器提供待抓取的地图坐标区域;地图信息获取管理器用于从电子地图中获取调度器提供的待抓取的地图坐标区域的地图数据;地图信息解析器用于对地图信息获取管理器获取到的地图数据进行解析,提取地标信息;结果处理器用于对地图信息解析器提取的地标信息进行处理,查找与地标命名规则关键词匹配的地标信息。2.根据权利要求1所述的系统,其特征在于:还包括搜索范围控制器,搜索范围控制器用于对指定地图坐标范围和地标命名规则关键词进行管理,并确定调度器向地图信息获取管理器提供的待抓取的地图坐标区域。3.根据权利要求2所述的系统,其特征在于:在当前地图坐标区域抓取结束时,搜索范围控制器向调度器反馈在指定地图坐标范围中的新的待抓取的地图坐标区域。4.根据权利要求3所述的系统,其特征在于:调度器根据地图信息解析器解析提取的地标信息数据量确定坐标移动步长,并反馈坐标移动步长和当前地图中心点给搜索范围控制器;搜索范围控制器根据调度器反馈的坐标移动步长信息和当前地图中心点,确定新的地图中心点和新的待抓取的地图坐标区域,并将新的地图中心点和新的待抓取的...

【专利技术属性】
技术研发人员:罗剑明
申请(专利权)人:广州视源电子科技股份有限公司广州视睿电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1