一种用于兴趣点信息的排重方法技术

技术编号:7786559 阅读:217 留言:0更新日期:2012-09-21 07:39
本发明专利技术涉及信息排重技术。一种用于兴趣点信息的排重方法,包括以下步骤:1:系统接收兴趣点A的信息;2:以兴趣点A的经纬度为基准点,查询第一区域内的所有兴趣点名称;3:根据位置偏移匹配方法,对兴趣点A和搜索到的其他各兴趣点进行匹配排重,得到排重结果和匹配精度;4:如果步骤3得到的匹配精度P1≥预先设定的精度P,则转到步骤9,否则转到步骤5;5:查询第二区域范围内的所有兴趣点名称,重复步骤3;6:如果步骤5得到的匹配精度P2≥预先设定的精度P’,则转到步骤9,否则转到步骤7;7:查询第三区域范围内的所有兴趣点名称,重复步骤3;8:如果步骤7得到的匹配精度P3≥预先设定的精度P’’,则转到步骤9;9:输出排重结果。

【技术实现步骤摘要】

本专利技术涉及信息排重技术,具体涉及。
技术介绍
随着电子地图导航(GIS)技术的普及,电子地图中引进了政府机关、观光景点、宾馆、餐厅、商场以及医院等人们感兴趣的地点的名称、简介等数据,这些人们感兴趣的地点称为兴趣点(Point of Interest),而这些地点的名称、简介等数据信息统称为兴趣点信肩、O人们在使用电子地图时,可以附带地获得相应的兴趣点信息,兴趣点信 息一般包括兴趣点的名称、类型、所在经纬度、详细地址、联系电话等等。在采集保存兴趣点过程中,为了保证兴趣点信息合法性、可靠性、有效性以及提高唯一性(减少数据冗余),必须对采集到的数据进行处理。例如,本公司申请的另外一篇申请公布号为CN 102054010A、申请号为200910309256. X、名称为“一种兴趣点信息处理方法”的专利技术,公开了一种兴趣点信息处理方法,该专利技术的方法包含建立数据库、注册、保存兴趣点信息和使用兴趣点信息的过程。其中保存兴趣点信息的过程中使用者操作终端按应用模板将一个兴趣点的位置、名称、类型、简介和附加信息编辑成记录素材,并上传给中心;中心按该记录素材中的位置所在的地域将该记录素材及其识别码存入所述数据库该地域的兴趣点文件;中心检查该记录素材的发出者是否在黑名单中,是则退出;中心操作员审查该记录素材的合法性;不合法的,中心将该记录素材发出者记入黑名单中;合法的,中心将该记录素材修改为兴趣点记录。该专利技术的方法在保证兴趣点信息的合法性和可靠性的同时提高了兴趣点信息采集和输入的数量,并加快了对兴趣点信息更新的速度,但是上述方法只专注于提高兴趣点信息的采集和输入的数量,而并没有针对兴趣点信息进行减少数据冗余以提高唯一性的处理。目前针对信息的数据冗余处理通常是采用排重技术,现有的排重技术主要是运用字符串全匹配或者局部匹配、分词匹配进行判断。而由于兴趣点信息在采集中,要求信息比较详细,且上传的名称和地址等信息比较准确,因而现有所使用的全匹配或分词匹配方法,都无法满足比较精确的排除数据冗余的需求,例如采集人员输入字符串“沃尔码”,而实际已有的数据为“沃尔玛”或“沃尔玛购物广场”,通过全匹配和分词匹配都无法通过比较得出该数据为冗余数据的结果。
技术实现思路
本专利技术所要解决的技术问题是,提出,以位置为基础,结合一种根据采集的兴趣点信息进行位置偏移匹配的方法,来实现区域范围内高匹配度的排重方法,从而解决现有排重技术无法实现的高精度排除数据冗余的问题。为了解决上述技术问题,本专利技术所采用的技术方案是,,包括以下步骤步骤I :系统接收到上传的兴趣点A的信息并保存,该信息内容至少包括兴趣点名称、兴趣点类型、经纬度、地址和简介; 步骤2 以步骤I保存的兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、封闭的第一区域范围内的所有兴趣点名称; 步骤3 :根据位置偏移匹配方法,对兴趣点A的名称和搜索到的其他各兴趣点名称进行匹配排重,得到排重结果以及匹配精度; 步骤4 :如果步骤3得到的匹配精度Pl >预先设定的精度P,则结束排重并转到步骤9,否则,转到步骤5 ;其中0〈P〈100% ; 步骤5 :以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、覆盖第一区域范围外的、封闭的第二区域范围内的所有兴趣点名称,重复步骤3 ; 步骤6 :如果步骤5得到的匹配精度P2 >预先设定的精度P’,则结束排重并转到步骤9,否则,转到步骤7 ;其中0〈P’〈100%,P’>P; 步骤7 :以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心、覆盖第一区域和第二区域范围外的、封闭的第三区域范围内的所有兴趣点名称,重复步骤3; 步骤8 :如果步骤7得到的匹配精度P3 >预先设定的精度P’’,则结束排重并转到步骤9,否则,输出在第一区域、第二区域和第三区域范围内没有找到匹配结果;其中0〈P’’〈100%,P’’>P’ ; 步骤9:输出排重结果。进一步的,步骤2中的第一区域,是以该兴趣点A为中心、各边距离中心为20米的正方形区域。也可以是以该兴趣点A为中心、半径为20米的圆形区域,当然还可以是其他形状的闭合区域,但考虑到计算速度,优选使用正方形区域。步骤5中的第二区域,是以该兴趣点A为中心、各边距离中心为50米的正方形区域且扣除第一区域的区域。也可以是以该兴趣点A为中心、半径为50米的圆形区域且扣除第一区域的区域。当然还可以是其他形状的闭合区域,但考虑到计算速度,优选使用正方形区域,那么优选的第二区域具体是以该兴趣点A为中心、各边距离中心为50米的正方形区域,扣除以该兴趣点A为中心、各边距离中心为20米的正方形区域的回形区域。步骤7中的第三区域,是以该兴趣点A为中心、各边距离中心为100米的正方形区域且扣除第一区域和第二区域的区域。也可以是以该兴趣点A为中心、半径为100米的圆形区域且扣除第一区域和第二区域的区域。当然还可以是其他形状的闭合区域,但考虑到计算速度,优选使用正方形区域,那么优选的第三区域具体是以该兴趣点A为中心、各边距离中心为100米的正方形区域且扣除以该兴趣点A为中心、各边距离中心为50米的正方形区域的回形区域。进一步的,步骤3的位置偏移匹配方法,是令一兴趣点名称(即字符串strl)和另一兴趣点名称(字符串str2)的距离等于字符串strl转换成字符串str2的过程中的添力口、删除、修改的操作次数;该距离越大,表明字符串strl和字符串str2越不相同,即字符串strl和字符串str2的不同度越大;将字符串strl转换成字符串str2的距离值表示为LD(strl,str2),最后通过公式计算得到匹配精度,该位置偏移匹配方法具体包括以下步骤 步骤31 :如果字符串strl的长度m=0,则LD (strl, str2) =字符串str2长度n,转到步骤35 ;如果字符串str2的长度n为O,则LD(strl,str2) =字符串strl的长度m,转到步骤35 ;即LD (str 1,str2) =字符串strl和字符串str2中的非零的那个字符串的长度;如果字符串strl的长度m和字符串str2长度n均不等于O,则构建一个(m+1)行、(n+1)列的矩阵M[m] [n],转到步骤32; 步骤32 :初始化(m+1)行、(n+1)列的矩阵M[m] [n],并让第一行的值从O增长到n,让第一列的值从O增长到m ; 步骤33 :扫描字符串strl和字符串str2,构造一临时变量temp并初始化,如果字符串strl的第i个字符strl [i]=字符串strl的第j个字符str2[j],则temp=0 ;否则temp=l ;将矩阵 M[i] [j]赋值为M[i-l] [j]+l、M[i] [j_l]+l、M[i-1] [j-l]+temp 三者之中的最小值;其中m+1,1彡j彡n+1 ; 步骤34 :扫描完字符串strl和字符串str2后,得到LD(strl,str2) =矩阵M[m] [n]的最后一个值,即该矩阵中第(m+1)行、第(n+1)列所对应的值; 步骤35:使用公式 匹配精度=I-LD (strl, str2)/strl和str2中的长度本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201210153313.html" title="一种用于兴趣点信息的排重方法原文来自X技术">用于兴趣点信息的排重方法</a>

【技术保护点】

【技术特征摘要】
1.一种用于兴趣点信息的排重方法,其特征在于包括以下步骤 步骤I :系统接收到上传的兴趣点A的信息并保存,该信息内容至少包括兴趣点名称、兴趣点类型、经纬度、地址和简介; 步骤2 以步骤I保存的兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、封闭的第一区域范围内的所有兴趣点名称; 步骤3 :根据位置偏移匹配方法,对兴趣点A的名称和捜索到的其他各兴趣点名称进行匹配排重,得到排重结果以及匹配精度; 步骤4 :如果步骤3得到的匹配精度Pl >预先设定的精度P,则结束排重并转到步骤9,否则,转到步骤5 ;其中0〈P〈100% ; 步骤5 以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、覆盖第一区域范围外的、封闭的第二区域范围内的所有兴趣点名称,重复步骤3; 步骤6 :如果步骤5得到的匹配精度P2 >预先设定的精度P’,则结束排重并转到步骤9,否则,转到步骤7 ;其中0〈P’〈100%,P’>P; 步骤7 :以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心、覆盖第一区域和第二区域范围外的、封闭的第三区域范围内的所有兴趣点名称,重复步骤3; 步骤8 :如果步骤7得到的匹配精度P3 >预先设定的精度P’ ’,则结束排重并转到步骤9,否则,输出在第一区域、第二区域和第三区域范围内没有找到匹配结果;其中0〈P’’〈100%,P’ ’>P’ ; 步骤9:输出排重結果。2.根据权利要求I所述的用于兴趣点信息的排重方法,其特征在于步骤3中的位置偏移匹配方法,将ー兴趣点记为字符串strl、另ー兴趣点记为字符串str2,令字符串strl和str2的距离等于字符串strl转换成字符串str2的过程中的添加、删除、修改的操作次数;该距离越大,表明字符串strl和字符串str2的不同度越大;将字符串strl转换成字符串str2的距离值记为LD(strl,str2),最后通过计算得到匹配精度,具体的,该位置偏移匹配方法包括以下步骤 步骤31 :如果字符串strl的长度m=0,则LD...

【专利技术属性】
技术研发人员:吕崇毅程行荣余小峰谢燕玲余顺丽
申请(专利权)人:厦门雅迅网络股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1