当前位置: 首页 > 专利查询>北京大学专利>正文

一种地理位置敏感的搜索引擎方法和系统技术方案

技术编号:9833966 阅读:131 留言:0更新日期:2014-04-02 00:11
一种地理位置敏感的网页检索方法、搜索引擎方法和搜索引擎系统。首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。

【技术实现步骤摘要】
【专利摘要】一种地理位置敏感的网页检索方法、搜索引擎方法和搜索引擎系统。首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。【专利说明】一种地理位置敏感的搜索引擎方法和系统
本专利技术提供一种搜索引擎方法和系统,具体涉及一种考虑网页地理位置信息及链接关系的网页检索方法,并提供了相应的搜索引擎系统,属于地理信息检索领域。
技术介绍
随着信息技术的发展,互联网已经成为重要的数据来源,近年来云技术的普及在解决数据共享问题的同时,也给信息挖掘和知识发现带来严峻的考验。在大数据时代如何有效挖掘出高相关性、高可靠性的数据显得尤为重要。根据Mark Sanderson等人的研究(Sanderson M, Kohler J.Analyzing geographic queries//SIGIR Workshop onGeographic Information Retrieval.2004, 2), 15%-19% 的网页搜索查询都是地理相关的,基于地理信息的网页检索具有很大的研究价值和实际意义。传统的网页排序方法主要采用PageRank算法(Page L, Brin S,Motwani R, etal.The PageRank citation ranking !bringing order to the web .1999),该算法基于网页链接关系计算每个网页的排序得分,同时根据主题进行加权,对于一般主题相关的查询能够返回满意的结果,但却无法根据检索词与网页间地理相关性进行排序;Bruno Martins 等人对地理信息检索的研究(Martins B, Calado P.Learning to rankfor geographic information retrieval//Proceedings of the6th Workshop onGeographic Information Retrieval.ACM, 2010:21)则是针对文档的,最终结果以地理相关性和文本相关性进行排序,该方法缺少对网络结构的考虑,无法过滤掉垃圾网页;SaeidAsadi 等人的工作(Asadi S,Zhou X,Yang G.Using local popularity of web resourcesfor geo-ranking of search engine results.World Wide Web, 2009, 12(2):149-170)将不属于查询范围的网页从网络结构图中直接删除,对地理相关性的判定不精确,同时对网络结构图的修改也使垃圾网页不能很好地剔除。目前还没有一种方法能够很好地兼顾地理相关性和网页链接关系。
技术实现思路
术语定义:“地理热点”也称为POI (Point of Interest,兴趣点),是空间位置已知、在现实世界中具有明确标识的地点,例如一栋房子、一个商铺、一个邮筒、一个公交站等。“网页的地理范围”指网页包含的地理名词所对应空间坐标的点集;“关键词的地理范围”指查询语句对应的空间点集;“基于地理信息的搜索”指用户输入地理关键词,希望返回的网页地理范围与关键词的地理范围最邻近,并且返回的网页能包含可靠的信息(非垃圾网页)。本专利技术的目的是提供一种新的网页重要性评价方法和搜索引擎方法及系统,综合考虑网页包含的地理位置信息和网页的链接关系对网页进行评分,在用户进行地理信息检索时能实时提供与查询语句地理范围最邻近、最权威的网页。本专利技术提供的技术方案如下:本专利技术首先提供一种地理位置敏感的网页检索方法,其特征是,首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。本专利技术同时提供一种地理位置敏感的搜索引擎方法,其特征是,包括如下步骤:S1、离线计算各网页关于地理热点的得分,执行如下操作:SlOl:选取POI库中的地理热点作为参考点;S102:利用云端服务器对网络中各网页进行信息爬取,对爬取获得的网页内容进行地理标注,获得每个网页的地理范围;或者采用自然语言处理方法提取出网页包含的地名,并与地名库进行匹配,获得每个网页的地理范围;S103:对于每个地理热点,网页的地理相关性与网页地理范围中各点出现的频率成正比,与各点和地理热点之间的空间距离的幂成反比,由此在服务器端计算各网页针对地理热点的地理相关性;S104:利用 网络爬虫获取网页间的链接关系;根据网页间的链接关系,构建网络结构图的邻接矩阵A,其中A的行、列分别对应相应编号的网页,A中元素的值表示网页间的链接关系;S105:对于每个地理热点,根据各网页的链接关系以及关于该地理热点的地理相关性,基于PageRank算法进行改进,基于网页包含的地理范围对网页进行加权,计算各网页关于地理热点的得分;S2、在线计算查询语句与地理热点的地理相关性,执行如下操作:S201:利用云端服务器对查询语句进行自然语言处理,获取查询语句的地理范围;S202:对于每个地理热点,在线计算查询语句的地理相关性,其中,查询语句地理范围中各点的地理相关性与其相对于地理热点的空间距离的幂成反比,整个查询语句的地理相关性为其地理范围中各点地理相关性之和;S3、结合离线计算和在线计算,得出各网页关于检索词的得分并排序输出。其中,步骤S3包括:S301:调用数据库中存储的各网页对每个地理热点的得分,乘以查询语句对相应地理热点的地理相关性,并对各个地理热点的得分结果进行累和,得出各网页关于查询语句的最终得分;S302:根据网页的最终得分进行降序排列,并返回结果列表。步骤S103具体包括:在网页i中,包含M个地理位置{fPl,fp2,fp3,…fpM},任意点位m在网页中出现的频率为tmSm点对应的地理名词在网页中出现的次数,1\为网页中总词数;m点与地 ?理热点j的距离为dmj ;r为经验值;m点关于地理热点j的相关性权重Wmlj如下计算:【权利要求】1.一种地理位置敏感的网页检索方法,其特征是,首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服本文档来自技高网
...

【技术保护点】
一种地理位置敏感的网页检索方法,其特征是,首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:姜丹高勇李浩然刘家骏郭潇程静
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1