选择兴趣点POI数据的方法及装置制造方法及图纸

技术编号:12440250 阅读:69 留言:0更新日期:2015-12-04 02:41
本发明专利技术提供了一种选择兴趣点POI数据的方法,包括:获取包括具有相同的名称信息的不同POI数据的多个网页页面;提取多个网页页面的用户关注度信息;根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度;基于用户关注度对多个网页页面中包括的具有相同名称信息的多个POI数据进行排序;基于POI数据的排序选择一个或多个POI数据,作为对应该相同的名称信息的可信POI数据。根据用户关注度可从具有相同的名称信息的不同POI数据中选择出可信度较高的POI数据,解决了现有技术难以甄别出哪个POI数据中的名称信息对应的地址信息是准确的问题,提高了对收集POI数据的准确率。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体而言,本专利技术涉及选择兴趣点POI数据的方法及装置
技术介绍
在地理信息系统中,一个POI (Point Of Interest,兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据包括地址信息和POI名称。传统的POI数据采集方法,需要技术人员采用精密的测绘仪器去获取每个POI的经玮度信息,然后再标记下来,这种方法比较费时费力,导致通过采集得到的POI数据的数量很少,地理信息系统很难根据数量很少的POI数据来提供高水平的服务。互联网上存在着大量的POI数据,如果能从互联网上收集包含POI数据的网页,从收集的网页中提取出这些POI数据供地理信息系统使用,则会大大节省人力和时间。但是从互联网上中提取到准确率较高POI数据有一定难度,例如,可能从互联网中获取到多个POI数据中,其具有相同的名称信息但不同的地址信息,现有技术难以甄别出哪个POI数据中的名称信息对应的地址信息是准确的,从而对收集到准确的POI数据造成障碍。
技术实现思路
本专利技术针对现有技术的缺点,提出一种用于选择兴趣点POI数据的方法和装置,用以解决现有技术存在的难以甄别具有相同名称信息的多个POI数据的准确性的问题。本专利技术根据一个方面,提供了一种选择兴趣点POI数据的方法,包括:获取包括具有相同的名称信息的不同POI数据的多个网页页面;提取所述多个网页页面的用户关注度信息;根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度;基于用户关注度对所述多个网页页面中包括的具有相同名称信息的多个POI数据进彳丁排序;基于所述POI数据的排序选择一个或多个所述POI数据,作为对应该相同的名称信息的可信POI数据。优选地,提取所述多个网页页面中的用户关注度信息的步骤,进一步包括:根据各网页页面在第一时长内的用户访问次数和/或平均每次浏览时长,获取各网页页面的用户关注度信息。当网页页面中仅包括一个POI数据时,可选地,根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度的步骤,进一步包括:将网页页面的用户关注度信息作为该网页页面中包括的一个POI数据的用户关注度。当网页页面中包括多个POI数据时,可选地,根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度的步骤,进一步包括:按照预定频率抓取第二时长内各网页页面中的页面内容;提取每次抓取到的页面内容中的POI数据;判断所述第二时长内各网页页面的页面内容中POI数据是否发生变更;基于判断结果选择相应的关注度分配规则;基于所述相应的关注度分配规则,根据各网页页面的用户关注度,并结合各网页页面中包括的POI数据的个数,确定各网页页面中包括的多个POI数据的用户关注度。其中,基于判断结果选择相应的关注度分配规则,包括以下情形:当POI数据未发生变更时,选择将网页页面的用户关注度信息作为该网页页面中包括的各POI数据的用户关注度的关注度分配规则;或当POI数据发生变更时,选择将网页页面的用户关注度信息平均分配至该网页页面中包括的各POI数据的用户关注度的关注度分配规则。优选地,基于用户关注度对所述多个网页页面中包括的具有相同名称信息的多个POI数据进行排序的步骤,进一步包括:提取多个POI数据中用户关注度大于关注度阈值的至少两个POI数据;基于用户关注度对所述至少两个POI数据进行排序。本专利技术根据另一个方面,还提供了一种选择兴趣点POI数据的装置,包括:获取模块,用于获取包括具有相同的名称信息的不同POI数据的多个网页页面;提取模块,用于提取所述多个网页页面的用户关注度信息;确定模块,用于根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度;排序模块,用于基于用户关注度对所述多个网页页面中包括的具有相同名称信息的多个POI数据进行排序;选择模块,用于基于所述POI数据的排序选择一个或多个所述POI数据,作为对应该相同的名称信息的可信POI数据。优选地,所述提取模块具体用于根据各网页页面在第一时长内的用户访问次数和/或平均每次浏览时长,获取各网页页面的用户关注度信息。当网页页面中仅包括一个POI数据时,可选地,所述确定模块具体用于将网页页面的用户关注度信息作为该网页页面中包括的一个POI数据的用户关注度。当网页页面中包括多个POI数据时,可选地,所述确定模块具体包括:抓取单元,用于按照预定频率抓取第二时长内各网页页面中的页面内容;提取单元,用于提取每次抓取到的页面内容中的POI数据;判断单元,用于判断所述第二时长内各网页页面的页面内容中POI数据是否发生变更;选择单元,用于基于判断结果选择相应的关注度分配规则;确定单元,用于基于所述相应的关注度分配规则,根据各网页页面的用户关注度,并结合各网页页面中包括的POI数据的个数,确定各网页页面中包括的多个POI数据的用户关注度。其中,基于判断结果选择相应的关注度分配规则,包括以下情形:当POI数据未发生变更时,选择将网页页面的用户关注度信息作为该网页页面中包括的各POI数据的用户关注度的关注度分配规则;或当POI数据发生变更时,选择将网页页面的用户关注度信息平均分配至该网页页面中包括的各POI数据的用户关注度的关注度分配规则。优选地,所述排序装置具体用于提取多个POI数据中用户关注度大于关注度阈值的至少两个POI数据;基于用户关注度对所述至少两个POI数据进行排序。本专利技术的技术方案中,对包括具有相同的名称信息的不同POI数据的多个网页页面,根据多个网页页面的用户关注度信息来确定其中包括的POI数据所对应的用户关注度,再基于用户关注度对POI数据进行排序,进而根据排序结果从中选择对应该相同的名称信息的可信POI数据;由于用户关注度越高的POI数据,其包含信息的准确率越高,同时,网页页面的用户关注度可直接反应网页页面包括的各项信息的可信度和价值度,对于网页页面中包括的POI数据,网页页面的用户关注度也可以在很大程度上反应POI数据的用户关注度;因此,根据用户关注度可从具有相同的名称信息的不同POI数据中选择出可信度较高的POI数据,解决了现有技术难以甄别出哪个POI数据中的名称信息对应的地址信息是准确的问题,提高了对收集POI数据的准确率。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。【附图说明】本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术一个实施例中选择兴趣点POI数据的方法的流程示意图;图2为本专利技术一个优选实施例中选择兴趣点POI数据的方法的流程示意图;图3为本专利技术另一实施例中选择兴趣点POI数据的装置的内部结构的框架示意图;图4为本专利技术另一优选实施例中选择兴趣点POI数据的装置的内部结构的框架示意图。【具体实施方式】下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制本文档来自技高网...

【技术保护点】
一种选择兴趣点POI数据的方法,其特征在于,包括:获取包括具有相同的名称信息的不同POI数据的多个网页页面;提取所述多个网页页面的用户关注度信息;根据各网页页面的用户关注度信息,确定各网页页面中包括的一个或多个POI数据所对应的用户关注度;基于用户关注度对所述多个网页页面中包括的具有相同名称信息的多个POI数据进行排序;基于所述POI数据的排序选择一个或多个所述POI数据,作为对应该相同的名称信息的可信POI数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:王智广魏少俊
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1