【技术实现步骤摘要】
本专利技术涉及计算机
,具体而言,本专利技术涉及一种检测兴趣点POI数据准确性的方法及装置。
技术介绍
在地理信息系统中,一个POI(Point Of Interest,兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据通常包括地址信息和名称信息。传统的POI数据采集方法,需要技术人员采用精密的测绘仪器去获取一个POI的经纬度信息,然后再标记下来,这种方法比较费时费力,导致通过采集得到的POI数据的数量很少,很难根据数量很少的POI数据来绘制地图供地理信息系统进行展示。互联网上存在着大量的POI数据,如果能从互联网上收集包含POI数据的网页,从收集的网页中提取出这些POI数据供地理信息系统使用,则会大大节省人力和时间。然而,互联网上充斥着大量虚假的POI数据,比如博客网页内容中包含“原文地址:http://xxx.xxx.xxx/xxx”,虽然包含“地址”字样,但该地址是网络地址或者说是URL(Uniform Resoure Locator,统一资源定位器),并不是POI数据中的地理地址信息;从而导致收集到的POI数据中包含虚假的POI数据的比例较高。目前,还没有检测POI数据准确性的方法,导致现有收集的POI数据的准确性较低。因此,有必要提供一种检测POI数据准确性的方法及装置,以提高收集到的POI数据的准确性。
技术实现思路
本专利技术的目的旨在至少 ...
【技术保护点】
一种检测兴趣点POI数据准确性的方法,其特征在于,包括:提取POI数据提供网站中的多个POI数据;定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对;将所述多个POI数据与所述名称地址对进行一一比对;当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
【技术特征摘要】
1.一种检测兴趣点POI数据准确性的方法,其特征在于,包括:
提取POI数据提供网站中的多个POI数据;
定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括
地址信息及名称信息的名称地址对;
将所述多个POI数据与所述名称地址对进行一一比对;
当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹
配时,确定该POI数据为准确的POI数据。
2.根据权利要求1所述的检测POI兴趣点准确性的方法,其特征在
于,提取POI数据提供网站中的多个POI数据,包括:
获取包括地址关键词的多个网页对应的多个URL;
对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚
类为同一pattern集合;
基于属于同一pattern集合中多个URL对应多个网页的页面结构特
征,生成与该pattern集合相应的POI提取模板;
基于所述POI提取模板,从该pattern集合中多个URL对应的多个网
页中提取多个POI数据。
3.根据权利要求1或2所述的检测POI兴趣点准确性的方法,其特
征在于,该方法还包括:
当属于任一pattern集合中的任一URL对应网页中包括的POI数据为
准确的POI数据时,则确定该pattern集合中的每一URL对应网页包括的
POI数据均为准确的POI数据。
4.根据权利要求1-3任一项所述的检测POI兴趣点准确性的方法,其
特征在于,定位官网中的地址信息页面,包括:
对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关
键词;
将包括所述地址关键词的网页确定为官网的地址信息页面。
5.根据权利要求1-4任一项所述的检测POI兴趣点准确性的方法,其
\t特征在于,定位官网中的地址信息页面,并从所述官网地址信息页面中提
取包括地址信息及名称信息的名称地址对,包括:
从官网中的多个网页中查找包含地址关键词的锚文本链接;
将所述锚文本链接指向的网页确定为地址信息页面;
从所述锚文本链接指向的地址信息页面中提取地址信息及名称信息
的名称地址对。
6.根据权利要求1-5任一项所述的检测POI兴趣点准确性的方法,其
特征在于,将所述多个POI数据与所述名称地址对进行一一比对,包括...
【专利技术属性】
技术研发人员:王智广,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。