一种地图数据判重的方法及系统技术方案

技术编号:10683476 阅读:241 留言:0更新日期:2014-11-26 14:55
本发明专利技术提供了一种地图数据判重的方法,包括:依据用户行为日志统计查询词的搜索结果中兴趣点的点击次数,并依据查询词、兴趣点以及点击次数的对应关系生成有向图;依据所述有向图,利用随机游走算法获得兴趣点之间的相似度;当两个兴趣点的相似度大于预设阈值时,判定所述两个兴趣点为重复数据;本发明专利技术还提供一种地图数据判重的系统。根据本发明专利技术提供的技术方案,能够有效识别出电子地图应用中重复的兴趣点。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种地图数据判重的方法,包括:依据用户行为日志统计查询词的搜索结果中兴趣点的点击次数,并依据查询词、兴趣点以及点击次数的对应关系生成有向图;依据所述有向图,利用随机游走算法获得兴趣点之间的相似度;当两个兴趣点的相似度大于预设阈值时,判定所述两个兴趣点为重复数据;本专利技术还提供一种地图数据判重的系统。根据本专利技术提供的技术方案,能够有效识别出电子地图应用中重复的兴趣点。【专利说明】一种地图数据判重的方法及系统
】本专利技术涉及互联网应用领域,尤其涉及一种地图数据判重的方法及系统。【
技术介绍
】随着地理信息系统(GIS, Geographic Informat1n System)的普及,电子地图中引进了政府机关、观光景点、宾馆、餐厅、商场以及医院等人们感兴趣的地点的名称、简介等数据,这些人们感兴趣的地点称为兴趣点(POI, Point of Interest)。在使用电子地图时,会依据用户输入的query (查询词)向用户提供一个以上兴趣点作为搜索结果,但是由于目前电子地图应用中兴趣点的数据来源比较多也比较杂,导致搜索结果中会出现重复的兴趣点,这样就对用户产生了干扰,当用户无法识别出需要获知的是哪个兴趣点时,就会点击搜索结果中的所有兴趣点,进一步进行人工筛选,因此,为了保证兴趣点的有效性、可靠性以及提高唯一性,必须对兴趣点进行判重处理。目前,对兴趣点进行判重的方法是:从兴趣点的数据出发,如兴趣点的名称、地址和经纬度坐标等,先对兴趣点的名称进行解析,提取名称的核心词,然后依据兴趣点的经纬度坐标,判断附近的兴趣点的名称是否与当前兴趣点的名称有相同的核心词,综合判断出兴趣点是否重复。这种兴趣点判重方法的缺点是:仅依据兴趣点自身的数据,如名称和地址,来判断兴趣点是否重复,如果兴趣点有其他名称,或兴趣点之间仅有几个字的差异,将会导致兴趣点的判重失败,例如,“兰会所”与“会所”,“牛街邮政支局”与“北京市南区邮电局牛街支局”,这两组兴趣点都是重复的兴趣点,但是利用目前的判重方法无法识别出这两组重复的兴趣点,因此,目前的兴趣点判重方法中重复兴趣点的识别率较低。【
技术实现思路
】本专利技术提供了一种地图数据判重的方法及系统,能够有效识别出电子地图应用中重复的兴趣点。本专利技术的具体技术方案如下:根据本专利技术一优选实施例,一种地图数据判重的方法,包括:依据用户行为日志统计查询词的搜索结果中兴趣点的点击次数,并依据查询词、兴趣点以及点击次数的对应关系生成有向图;依据所述有向图,利用随机游走算法获得兴趣点之间的相似度;当两个兴趣点的相似度大于预设阈值时,判定所述两个兴趣点为重复数据。上述方法中,所述查询词为对用户点击日志中的查询词进行泛需求查询词筛选后得到的查询词。上述方法中,所述有向图包括一个以上有向边;所述有向边的两端分别为查询词和兴趣点;所述有向边的指向为兴趣点指向查询词;所述有向边的权重值为兴趣点的点击次数。上述方法中,所述利用随机游走算法获得兴趣点之间的相似度具体为:对于每个兴趣点,将所述兴趣点的有向边的权重值除以与所述兴趣点相连的有向边的权重值的总和,得到有向边的归一化概率;以所述兴趣点为起点,通过与所述兴趣点连接的所有有向边向对端的查询词游走;达到对端的查询词后,再以对端的查询词为起点,通过与所述查询词连接的有向边向所述查询词对端的兴趣点游走,直到达到预设的迭代次数时停止迭代,得到两个兴趣点的所有路径;将每个路径中有向边的归一化概率相乘,得到所述路径的概率;将两个兴趣点的所有路径的概率累加,得到两个兴趣点的相似度。一种地图数据判重的系统,包括:生成单元、统计单元、判重单元;其中,生成单元,用于依据用户行为日志统计查询词的搜索结果中兴趣点的点击次数,并依据查询词、兴趣点以及点击次数的对应关系生成有向图;统计单元,用于依据生成单元生成的有向图,利用随机游走算法获得兴趣点之间的相似度;判重单元,用于当两个兴趣点的相似度大于预设阈值时,判定所述两个兴趣点为重复数据。上述系统中,所述查询词为对用户点击日志中的查询词进行泛需求查询词筛选后得到的查询词。上述系统中,所述有向图包括一个以上有向边;所述有向边的两端分别为查询词和兴趣点;所述有向边的指向为兴趣点指向查询词;所述有向边的权重值为兴趣点的点击次数。上述系统中,所述统计单元在利用随机游走算法获得兴趣点之间的相似度时,具体为: 对于每个兴趣点,将所述兴趣点的有向边的权重值除以与所述兴趣点相连的有向边的权重值的总和,得到有向边的归一化概率;以所述兴趣点为起点,通过与所述兴趣点连接的所有有向边向对端的查询词游走;达到对端的查询词后,再以对端的查询词为起点,通过与所述查询词连接的有向边向所述查询词对端的兴趣点游走,直到达到预设的迭代次数时停止迭代,得到两个兴趣点的所有路径;将每个路径中有向边的归一化概率相乘,得到所述路径的概率;将两个兴趣点的所有路径的概率累加,得到两个兴趣点的相似度。由以上技术方案可以看出,本专利技术提供的具有以下有益效果:基于用户点击日志进行POI的聚类,能够有效识别出一些目前线下POI判重无法覆盖的重复数据,有效识别出电子地图应用中重复的兴趣点,提高重复的兴趣点的识别率和准确率。【【专利附图】【附图说明】】图1是本专利技术实现地图数据判重的方法的优选实施例的流程示意图;图2是本专利技术中有向图的示例图;图3是本专利技术实现地图数据判重的系统的优选实施例的结构示意图。【【具体实施方式】】本专利技术的基本思想是:依据用户行为日志统计查询词的搜索结果中兴趣点的点击次数,并依据查询词、兴趣点以及点击次数的对应关系生成有向图;依据所述有向图,利用随机游走算法获得兴趣点之间的相似度;当两个兴趣点的相似度大于预设阈值时,判定所述两个兴趣点为重复数据。为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。本专利技术提供一种地图数据判重的方法,图1是本专利技术实现地图数据判重的方法的优选实施例的流程示意图,如图1所示,该优选实施例包括以下步骤:步骤S101,依据用户点击日志获得用户搜索的查询词,并去除其中的泛需求查询ο具体的,从后台服务器获取最近一段时间内的用户点击日志,如可以是最近一个月内的用户点击日志,所述用户点击日志包括用户搜索的query以及在该query的搜索结果中用户点击的POI。从所述用户点击日志中获取用户在最近一段时间内的query集合,然后依据预设的泛需求词表对query集合进行筛选,从query集合中识别出泛需求query,然后从query集合中删除识别出的泛需求query ;例如,从query集合中删除“美食”、“酒店”或“学校”等泛需求query。由于在进行泛需求搜索时,用户在搜索结果中所点击的POI比较分散,一般不会点击重复的POI,而精确搜索中用户才可能会点击重复的POI,因此,对用户的query需要进行筛选,去除其中的泛需求query。步骤S102,依据用户行为日志统计查询词的搜索结果中兴趣点的点击次数,并依据查询词、兴趣点以及点击次数之间的对应关系生成有向图。具体的,对于筛选后得到的query,电子地图应用都会在搜索结果中给出一个以上POI供用户选择,例如,电子地图应用中查询词为“牛街邮局”,搜索结果为本文档来自技高网
...

【技术保护点】
一种地图数据判重的方法,其特征在于,该方法包括:依据用户行为日志统计查询词的搜索结果中兴趣点的点击次数,并依据查询词、兴趣点以及点击次数的对应关系生成有向图;依据所述有向图,利用随机游走算法获得兴趣点之间的相似度;当两个兴趣点的相似度大于预设阈值时,判定所述两个兴趣点为重复数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘凯奎
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1