一种兴趣点数据冗余检测方法及装置制造方法及图纸

技术编号:10438315 阅读:110 留言:0更新日期:2014-09-17 14:33
本申请公开了一种兴趣点数据冗余检测方法及装置,一种兴趣点数据冗余检测方法包括:根据兴趣点数据的位置信息,确定兴趣点所处的地理区域;兴趣点数据的名称信息中提取名称特征词;将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集;在冗余数据候选集中,计算任意两条兴趣点数据的相似度,如果相似度满足预设的要求,则判定所述两条兴趣点数据互为冗余数据。本申请技术方案并不需要依赖精确的经纬度信息,而是在空间上通过粒度较大的“地理区域”进行粗略划分,然后结合POI数据的其他信息进行冗余检测。整体方案的计算复杂度也能得到较好的控制,可以有效适用于大规模兴趣点数据冗余检测的应用场景。

【技术实现步骤摘要】
一种兴趣点数据冗余检测方法及装置
本申请涉及地理信息
,特别是涉及一种兴趣点数据冗余检测方法及装置。
技术介绍
兴趣点(Point of Interest, POI)指的是人们感兴趣的地理对象数据,一个POI代表一个位置实体,例如餐馆、公园、商场等等。POI数据是地理信息系统中的重要元素,也是人们在使用地理信息服务时最为关注的内容。 在现有基于地理信息的服务中,POI数据冗余是一个比较普遍的现象,所谓POI数据冗余是指在同一系统内,有两条甚至多条POI数据所指代的是同一个位置实体。这种情况一般是由于数据来源不同所导致的,但是对于计算机而言,会将这些冗余的数据看作不同的数据对象来进行各种处理,这样既导致了不必要的处理资源浪费,又不利于提升用户的使用体验。例如,用户在电子地图中搜索某地点名称,搜索引擎可能会匹配到多条冗余的结果、经排序后分别展现给用户,但是多余的结果对用户而言并无实际意义,反而会对阅读效率造成影响。可见,如何对POI数据进行排重处理,避免或减少数据冗余情况,已经成为地理信息
一个重要的研究方向。 现有技术的一种针对POI数据的冗余处理方案是:基于POI数据的经纬度信息对POI数据进行冗余检测。然而在实际应用中发现:很多POI数据中包含的经纬度信息并不精确,甚至不包含经纬度信息,对于这类数据,利用上述方案并不能实现有效的冗余检测。
技术实现思路
为解决上述技术问题,本申请实施例提供一种兴趣点数据冗余检测方法及装置,以实现在不依赖经纬度信息的情况下进行冗余检测,技术方案如下: 本申请实施例提供一种一种兴趣点数据冗余检测方法,包括: 根据兴趣点数据的位置信息,确定兴趣点所处的地理区域; 从兴趣点数据的名称信息中提取名称特征词; 将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集; 在冗余数据候选集中,计算任意两条兴趣点数据的相似度,如果相似度满足预设的要求,则判定所述两条兴趣点数据互为冗余数据。 本申请实施例还提供一种兴趣点数据冗余检测装置,包括: 区域分类模块,用于根据兴趣点数据的位置信息,确定兴趣点所处的地理区域; 名称特征提取模块,用于从兴趣点数据的名称信息中提取名称特征词; 冗余候选确定模块,用于将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集; 冗余数据确定模块,用于在冗余数据候选集中,计算任意两条兴趣点数据的相似度,如果相似度满足预设的要求,则判定所述两条兴趣点数据互为冗余数据。 本申请实施例所提供的技术方案,首先从两个维度对POI数据进行整体分类:一方面根据POI数据实际包含的位置信息,将POI划分到若干地理区域中;另一方面从POI数据的名称信息中,提取出最能代表该POI名称的特征词。然后根据上面两个维度,选取处于相同地理区域、且具有相同名称特征词的兴趣点数据作为冗余候选,进一步再利用POI数据中其他信息的相似度进行辅助判断,实现冗余检测。 与现有技术相比,本申请技术方案可以不依赖精确的经纬度信息,而是在空间上通过粒度较大的“地理区域”进行粗略划分,然后结合POI数据的其他信息进行冗余检测。 进一步地,由于“地理区域”和“特征词”两方面的条件限定,使得冗余候选集中的数据数量已经很少了,进而使得在冗余候选中执行两两比较运算的复杂度也能够得到控制,因此,本申请实施例技术方案可以有效适用于大规模POI数据冗余检测的应用场景。 【附图说明】 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。 图1为本申请实施例兴趣点数据冗余检测方法的一种流程图; 图2为本申请实施例兴趣点数据冗余检测方法的第二种流程图; 图3为本申请实施例兴趣点名称信息分词示意图; 图4为本申请实施例兴趣点数据冗余检测方法的数据分类示意图; 图5为本申请实施例兴趣点数据冗余检测装置的一种结构示意图; 图6为本申请实施例兴趣点数据冗余检测装置的第二种结构示意图。 【具体实施方式】 对于一条POI数据,必须至少包含“名称”和“位置”两方面的基本信息,有些POI数据还会进一步包括“类别”、“联系电话”、“数据来源”等附属信息。其中,“位置”信息一般又包括两种描述形式:一种是以经纬度描述POI的位置,另一种则是以地址文本来描述POI的位置。一条POI数据中,可以同时包含经纬度信息和地址描述信息。如果POI数据中的经纬度信息足够精确,则将这种POI数据称为标准POI数据;如果POI数据中不包含经纬度信息,或者经纬度信息不够精确,则将这种POI数据称为非标准POI数据。 传统的POI数据由专业的地图数据提供商采集,其数据格式标准,都包含有经纬度信息,而且经纬度非常精确。这种情况下,只要对经纬度进行网格划分,可以直接解决大规模POI数据的排重问题。随着信息技术的发展,POI数据的来源也不断增加,例如网页内容抓取、运营合作、用户上传等等,这些POI数据的经纬度往往精度不高,甚至不包含经纬度信息,无法直接利用经纬度实现冗余检测。 针对POI数据不包含经纬度信息或经纬度信息不精确的情况,本申请实施例提供一种兴趣点数据冗余检测方法,该方法可以包括以下步骤: 根据兴趣点数据的位置信息,确定兴趣点所处的地理区域; 从兴趣点数据的名称信息中提取名称特征词; 将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集; 在冗余数据候选集中,计算任意两条兴趣点数据的相似度,如果相似度满足预设的要求,则判定所述两条兴趣点数据互为冗余数据。 本申请实施例方案,首先从两个维度对POI数据进行整体分类:一方面根据POI数据实际包含的位置信息,将POI划分到若干地理区域中,另一方面从POI数据的名称信息中,提取出最能代表该POI名称的特征词。然后根据上面两个维度,选取处于相同地理区域、且具有相同名称特征词的兴趣点数据作为冗余候选,进一步再利用POI数据中其他信息的相似度进行辅助判断,实现冗余检测。 与现有技术相比,本申请实施例技术方案并不需要依赖精确的经纬度信息,而是在空间上通过粒度较大的“地理区域”进行粗略划分,然后结合POI数据的其他信息进行冗余检测。进一步地,由于“地理区域”和“特征词”两方面的条件限定,使得冗余候选集中的数据数量已经很少了,进而使得在冗余候选中执行两两比较运算的复杂度也能够得到控制,因此本申请实施例技术方案可以有效适用于大规模POI数据冗余检测的应用场景。 可以理解的是,上述方案除了可以应用于系统后台的POI数据预处理之外,在特定应用场景下,也可以应用于POI数据的即时检测,例如,在用户输入地图搜索请求后、系统向用户展示搜索结果之前,利用本申请实施例的方案实现对待展示结果的冗余检测及排重。本申请实施例对方案的具体应用场景并不需要进行限定。 为了使本领域技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地本文档来自技高网...
一种兴趣点数据冗余检测方法及装置

【技术保护点】
一种兴趣点数据冗余检测方法,其特征在于,该方法包括:根据兴趣点数据的位置信息,确定兴趣点所处的地理区域;从兴趣点数据的名称信息中提取名称特征词;将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集;在冗余数据候选集中,计算任意两条兴趣点数据的相似度,如果相似度满足预设的要求,则判定所述两条兴趣点数据互为冗余数据。

【技术特征摘要】
1.一种兴趣点数据冗余检测方法,其特征在于,该方法包括: 根据兴趣点数据的位置信息,确定兴趣点所处的地理区域; 从兴趣点数据的名称信息中提取名称特征词; 将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集; 在冗余数据候选集中,计算任意两条兴趣点数据的相似度,如果相似度满足预设的要求,则判定所述两条兴趣点数据互为冗余数据。2.根据权利要求1所述的方法,其特征在于,所述根据兴趣点数据的位置信息,确定兴趣点所处的地理区域,包括: 从兴趣点数据的地址描述信息中,提取地理区域标识词,根据地理区域标识词确定该兴趣点所处的地理区域。3.根据权利要求1所述的方法,其特征在于,所述根据兴趣点数据的位置信息,确定兴趣点所处的地理区域,包括: 根据兴趣点数据的经纬度信息,确定该兴趣点所处的地理区域。4.根据权利要求1至3任一项所述的方法,其特征在于,所述地理区域为:行政区域。5.根据权利要求1所述的方法,其特征在于,所述从兴趣点数据的名称信息中提取名称特征词,包括: 根据预设的名称特征词典,从兴趣点数据的名称信息中提取名称特征词。6.根据权利要求1所述的方法,其特征在于,所述计算任意两条兴趣点数据的相似度,包括: 对两条兴趣点数据所包含的一个或多个预设字段的信息分别计算相似度; 根...

【专利技术属性】
技术研发人员:张步峰
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1