相同信息点的判定方法及装置、信息点的去重方法及设备制造方法及图纸

技术编号:16717935 阅读:24 留言:0更新日期:2017-12-05 16:23
本发明专利技术提供了一种相同信息点的判定方法及装置、信息点的去重方法及设备,该相同信息点的判定方法包括:获取第一信息点的数据和第二信息点的数据;根据所述第一信息点的数据和第二信息点的数据,获取所述第一信息点和所述第二信息点的物理距离和编辑距离;通过所述物理距离、编辑距离以及预设判定策略判定所述第一信息点与所述第二信息点是否为相同信息点。本发明专利技术使得地理位置非常接近,集中于同一区域内,且两个信息点的语义代表同一地点即指向同一实体的信息点判定为相同信息点,为信息点的合并提供了依据,进而使得合并后的信息点数据库的存储容量减少,提高了获取信息点数据的效率,也为信息点在应用中的输入规范化垫定了基础。

The determination method and device of the same information point, the method of removing the information point and the equipment

The invention provides a device and method to weight determination method and device, the same information points, including the determination method of the same information: obtaining the first information point data and information of second data points; according to the first data point information and the second information point data, obtaining the the first information and the second information points of the physical distance and edit distance; through the physical distance, as well as the default edit distance determination strategy determines that the first information and the second information point is the same information point. The geographical location is very close to, concentrated in the same area, information and semantic information two represent the same place that refer to the same entity to determine the same information, provide the basis for the merger of information points, thus making the storage capacity information database of the combined reduction, improve the efficiency of access to information data, is the basis for the input specification information in the application of pad point.

【技术实现步骤摘要】
相同信息点的判定方法及装置、信息点的去重方法及设备
本专利技术涉及信息点合并
,尤其涉及一种相同信息点的判定方法及装置、信息点的去重方法及设备。
技术介绍
随着地理信息系统的发展和完善,电子地图的设计开发技术也日趋成熟。电子地图中,有一类数据被称为信息点(PointofInterest,POI),是指人们感兴趣的数据,如餐馆、公园、商场等建筑物信息,或是一些街道信息等等。通常,POI数据主要包括名称、类别、坐标(如经纬度)、地址、电话、邮编等等信息。POI数据是电子地图中最重要的元素之一,也是人们使用电子地图时最为关注的信息。电子地图通常包含很多的POI数据,这些POI数据涵盖了该地图范围内的绝大部分地理信息,在汽车导航、生活搜索等领域具有广泛的应用。目前,由于在信息点采集时,有的信息点的名称采用简化名称,例如“北京八中”,而有的信息点的名称为完整名称,例如“北京市第八中学”,实际上这两个信息点为相同信息点,但是由于名称不同,人们在信息点搜索,如导航搜索时可能会出现很多关于与搜索关键词对应的信息点的名称,大量的信息点数据降低了搜索效率。
技术实现思路
针对现有技术中的缺陷,本公开提供了一种相同信息点的判定方法及装置、信息点的去重方法及设备,通过判定相同信息点以及将相同信息点进行合并,减少了信息点数据库的存储容量,提高了获取信息点数据的效率。第一方面,本公开提供了一种相同信息点的判定方法,包括:获取第一信息点的数据和第二信息点的数据;根据所述第一信息点的数据和第二信息点的数据,获取所述第一信息点和所述第二信息点的物理距离和编辑距离;通过所述物理距离、编辑距离以及预设判定策略判定所述第一信息点与所述第二信息点是否为相同信息点。可选的,在获取所述第一信息点和所述第二信息点的物理距离和编辑距离之后,所述方法还包括:将所述编辑距离进行归一化处理,归一化的范围为[0,1]。可选的,通过所述物理距离、编辑距离以及预设判定策略判定所述第一信息点与所述第二信息点是否为相同信息点,包括:将所述物理距离与预设第一距离进行比较,归一化后的所述编辑距离与预设第二距离进行比较,根据比较结果,判定所述第一信息点与所述第二信息点是否为相同信息点。可选的,所述根据比较结果,判定所述第一信息点与所述第二信息点是否为相同信息点,包括:在所述物理距离小于等于预设第一距离,且归一化后的所述编辑距离小于等于预设第二距离时,判定所述第一信息点和所述第二信息点为相同信息点。第二方面,本公开还提供了一种相同信息点的判定装置,包括:数据获取模块,用于获取第一信息点的数据和第二信息点的数据;距离获取模块,用于根据所述第一信息点的数据和第二信息点的数据,获取所述第一信息点和所述第二信息点的物理距离和编辑距离;判定模块,用于通过所述物理距离、编辑距离以及预设判定策略判定所述第一信息点与所述第二信息点是否为相同信息点。可选的,所述装置还包括:归一化模块,用于在获取所述第一信息点和所述第二信息点的物理距离和编辑距离之后,将所述编辑距离进行归一化处理,归一化的范围为[0,1]。可选的,所述判定模块,用于:将所述物理距离与预设第一距离进行比较,归一化后的所述编辑距离与预设第二距离进行比较,根据比较结果,判定所述第一信息点与所述第二信息点是否为相同信息点。可选的,所述判定模块,具体用于:在所述物理距离小于等于预设第一距离,且归一化后的所述编辑距离小于等于预设第二距离时,判定所述第一信息点和所述第二信息点为相同信息点。第三方面,本公开还提供了一种信息点的去重方法,包括:遍历多个信息点;根据上述的方法判断所述信息点中是否有相同信息点;根据判断结果,将所述多个信息点进行去重。第四方面,本公开还提供了一种信息点的去重设备,包括:遍历模块,用于遍历多个信息点;如上述的判定装置,用于判断所述信息点中是否有相同信息点;去重模块,用于根据判断结果,将所述多个信息点进行去重。由上述技术方案可知,本公开提供一种相同信息点的判定方法及装置、信息点的去重方法及设备,使得地理位置非常接近,集中于同一区域内,且两个信息点的语义代表同一地点即指向同一实体的信息点判定为相同信息点,为信息点的合并提供了依据,进而使得合并后的信息点数据库的存储容量减少,提高了获取信息点数据的效率,也为信息点在应用中的输入规范化垫定了基础。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。图1为本公开一实施例提供的寻相同信息点的判定方法的流程示意图;图2为本公开一实施例提供的相同信息点的判定装置的结构示意图;图3为本公开一实施例提供的信息点的去重方法的流程示意图;图4为本公开一实施例提供的信息点的去重系统的结构示意图。具体实施方式下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。图1示出了本公开一实施例提供的一种相同信息点的判定方法的流程示意图,如图1所示,该方法包括以下步骤:101、获取第一信息点的数据和第二信息点的数据;需要说明的是,本实施例中的第一信息点的数据和第二信息点的数据包括信息点的位置信息,该位置信息包括经度和纬度等信息。102、根据所述第一信息点的数据和第二信息点的数据,获取所述第一信息点和所述第二信息点的物理距离和编辑距离;其中,物理距离可以根据第一信息点的纬度和第二信息点的纬度获取;编辑距离(EditDistance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。例如,poi1=“北京市第八中学”,poi2=“北京八中”,两者的编辑距离EditDis=3。103、通过所述物理距离、编辑距离以及预设判定策略判定所述第一信息点与所述第二信息点是否为相同信息点。本实施例中相同信息点的判定策略可以理解为需要满足两个条件,第一个条件是两个信息点的地理位置上非常接近,集中于同一区域内;第二个条件是语义上代表同一地点,指向同一实体。判定策略必须同时满足上述两个要求,例如北京大学(东门)和北京大学(西门),地理上相距较远,不能合并;数字山谷和中关村软件园-6号门,虽相距很近但是代表不同的位置,也不能合并;北京市第八中学和北京八中,地理位置非常接近,且两者的语义相同,因此可以认为是相同的信息点。上述方法使得地理位置非常接近,集中于同一区域内,且两个信息点的语义代表同一地点即指向同一实体的信息点判定为相同信息点,为信息点的合并提供了依据,进而使得合并后的信息点数据库的存储容量减少,提高了获取信息点数据的效率,也为信息点在应用中的输入规范化垫定了基础。下面对上述方法的实施细节进行详细说明。在上述步骤102中获取所述第一信息点和所述第二信本文档来自技高网...
相同信息点的判定方法及装置、信息点的去重方法及设备

【技术保护点】
一种相同信息点的判定方法,其特征在于,包括:获取第一信息点的数据和第二信息点的数据;根据所述第一信息点的数据和第二信息点的数据,获取所述第一信息点和所述第二信息点的物理距离和编辑距离;通过所述物理距离、编辑距离以及预设判定策略判定所述第一信息点与所述第二信息点是否为相同信息点。

【技术特征摘要】
1.一种相同信息点的判定方法,其特征在于,包括:获取第一信息点的数据和第二信息点的数据;根据所述第一信息点的数据和第二信息点的数据,获取所述第一信息点和所述第二信息点的物理距离和编辑距离;通过所述物理距离、编辑距离以及预设判定策略判定所述第一信息点与所述第二信息点是否为相同信息点。2.根据权利要求1所述的方法,其特征在于,在获取所述第一信息点和所述第二信息点的物理距离和编辑距离之后,所述方法还包括:将所述编辑距离进行归一化处理,归一化的范围为[0,1]。3.根据权利要求2所述的方法,其特征在于,通过所述物理距离、编辑距离以及预设判定策略判定所述第一信息点与所述第二信息点是否为相同信息点,包括:将所述物理距离与预设第一距离进行比较,归一化后的所述编辑距离与预设第二距离进行比较,根据比较结果,判定所述第一信息点与所述第二信息点是否为相同信息点。4.根据权利要求3所述的方法,其特征在于,所述根据比较结果,判定所述第一信息点与所述第二信息点是否为相同信息点,包括:在所述物理距离小于等于预设第一距离,且归一化后的所述编辑距离小于等于预设第二距离时,判定所述第一信息点和所述第二信息点为相同信息点。5.一种相同信息点的判定装置,其特征在于,包括:数据获取模块,用于获取第一信息点的数据和第二信息点的数据;距离获取模块,用于根据所述第一信息点的数据和第二信息...

【专利技术属性】
技术研发人员:张凌宇
申请(专利权)人:滴滴中国科技有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1