检测兴趣点POI数据准确性的方法及装置制造方法及图纸

技术编号:12016108 阅读:142 留言:0更新日期:2015-09-09 11:41
本发明专利技术提供了一种检测兴趣点POI数据准确性的方法及装置,该方法包括:提取POI数据提供网站中的多个POI数据;定位官网的地址信息页面,并从地址信息页面中提取包括地址信息及名称信息的名称地址对;将多个POI数据与名称地址对进行一一比对;当任一POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。本发明专利技术的技术方案中,利用官网上具有权威性的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,从整体上提高了收集准确的POI数据的效率。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体而言,本专利技术涉及一种检测兴趣点POI数据准确性的方法及装置
技术介绍
在地理信息系统中,一个POI(Point Of Interest,兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据通常包括地址信息和名称信息。传统的POI数据采集方法,需要技术人员采用精密的测绘仪器去获取一个POI的经纬度信息,然后再标记下来,这种方法比较费时费力,导致通过采集得到的POI数据的数量很少,很难根据数量很少的POI数据来绘制地图供地理信息系统进行展示。互联网上存在着大量的POI数据,如果能从互联网上收集包含POI数据的网页,从收集的网页中提取出这些POI数据供地理信息系统使用,则会大大节省人力和时间。然而,互联网上充斥着大量虚假的POI数据,比如博客网页内容中包含“原文地址:http://xxx.xxx.xxx/xxx”,虽然包含“地址”字样,但该地址是网络地址或者说是URL(Uniform Resoure Locator,统一资源定位器),并不是POI数据中的地理地址信息;从而导致收集到的POI数据中包含虚假的POI数据的比例较高。目前,还没有检测POI数据准确性的方法,导致现有收集的POI数据的准确性较低。因此,有必要提供一种检测POI数据准确性的方法及装置,以提高收集到的POI数据的准确性。
技术实现思路
本专利技术的目的旨在至少解决上述技术缺陷之一,特别是从互联网中提取到的大量POI数据准确性较低的问题。本专利技术的技术方案根据一个方面,提供了一种检测兴趣点POI数据准确性的方法,包括:提取POI数据提供网站中的多个POI数据;定位官网的地址信息页面,并从所述地址信息页面中提取包括地址信息及名称信息的名称地址对;将所述多个POI数据与所述名称地址对进行一一比对;当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。本专利技术的技术方案根据另一个方面,提供了一种检测兴趣点POI数据准确性的装置,包括:POI数据提取模块,用于提取POI数据提供网站中的多个POI数据;名称地址对提取模块,用于定位官网的地址信息页面,并从所述地址信息页面中提取包括地址信息及名称信息的名称地址对;比对模块,用于将所述多个POI数据与所述名称地址对进行一一比对;第一准确POI确定模块,用于当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。本方案的实施例中,利用官网提供的具有权威性和正确性的包括地址信息和名称信息的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,从整体上提高了收集准确的POI数据的效率;进一步地,可提高基于准确的POI数据的来提供服务的产品服务水准,增加使用这些产品的用户的体验。此外,该技术方案中,对于patten集合,若其中任一URL对应的网页包括的任一个POI数据为准确的POI数据,则将该patten集合涉及的所有POI数据都确定为准确的POI数据,实现了在保证POI数据较为准确的基础上收集到更多的POI数据的目的,进一步从整体上提升了收集准确的POI数据的效率。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1a为本专利技术中检测兴趣点POI数据准确性的方法一个实施例的流程示意图;图1b为本专利技术中包括多个POI数据的单个网页的示意图;图1c和图1d都为本专利技术中官网的局部网页或页面的示意图;图2为本专利技术中检测兴趣点POI数据准确性的装置一个实施例的框架结构示意图;图3为本专利技术中POI数据提取模块201的内部结构的框架示意图;图4和图5都为本专利技术中名称地址对提取模块202的内部结构的框架示意图;图6为本专利技术中比对模块203的内部结构的框架示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。本专利技术的专利技术人注意到,一般官网提供的信息是比较权威的,那么可以认为官网提供的地址信息和名称信息一般也是正确的。官网,即官方网站,一般是指由某组织与个人建立的最具权威、最有公信力、或唯一指定网站,其最大的特点是权威。本专利技术的专利技术人考虑到,可以利用官网提供的包括地址信息和名称信息的名称地址对的权威性,来检测从POI数据提供网站中提取出的POI数据的准确性;例如,POI数据与官网的名称地址对相匹配,则确认该POI数据为准确的POI数据。本专利技术的方法可以大大提高收集到的POI数据的准确性,有利于提高收集到准确的POI数据的几率,从而提高基于准确的POI数据的服务的水准,增加使用这些服务的用户的体验。下面结合附图具体介绍本专利技术实施例的技术方案。图1a为本专利技术中检测兴趣点POI数据准确性的方法一个实施例的流程图。本文档来自技高网
...
检测兴趣点POI数据准确性的方法及装置

【技术保护点】
一种检测兴趣点POI数据准确性的方法,其特征在于,包括:提取POI数据提供网站中的多个POI数据;定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对;将所述多个POI数据与所述名称地址对进行一一比对;当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。

【技术特征摘要】
1.一种检测兴趣点POI数据准确性的方法,其特征在于,包括:
提取POI数据提供网站中的多个POI数据;
定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括
地址信息及名称信息的名称地址对;
将所述多个POI数据与所述名称地址对进行一一比对;
当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹
配时,确定该POI数据为准确的POI数据。
2.根据权利要求1所述的检测POI兴趣点准确性的方法,其特征在
于,提取POI数据提供网站中的多个POI数据,包括:
获取包括地址关键词的多个网页对应的多个URL;
对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚
类为同一pattern集合;
基于属于同一pattern集合中多个URL对应多个网页的页面结构特
征,生成与该pattern集合相应的POI提取模板;
基于所述POI提取模板,从该pattern集合中多个URL对应的多个网
页中提取多个POI数据。
3.根据权利要求1或2所述的检测POI兴趣点准确性的方法,其特
征在于,该方法还包括:
当属于任一pattern集合中的任一URL对应网页中包括的POI数据为
准确的POI数据时,则确定该pattern集合中的每一URL对应网页包括的
POI数据均为准确的POI数据。
4.根据权利要求1-3任一项所述的检测POI兴趣点准确性的方法,其
特征在于,定位官网中的地址信息页面,包括:
对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关
键词;
将包括所述地址关键词的网页确定为官网的地址信息页面。
5.根据权利要求1-4任一项所述的检测POI兴趣点准确性的方法,其

\t特征在于,定位官网中的地址信息页面,并从所述官网地址信息页面中提
取包括地址信息及名称信息的名称地址对,包括:
从官网中的多个网页中查找包含地址关键词的锚文本链接;
将所述锚文本链接指向的网页确定为地址信息页面;
从所述锚文本链接指向的地址信息页面中提取地址信息及名称信息
的名称地址对。
6.根据权利要求1-5任一项所述的检测POI兴趣点准确性的方法,其
特征在于,将所述多个POI数据与所述名称地址对进行一一比对,包括...

【专利技术属性】
技术研发人员:王智广
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1