一种多语言的地图POI 搜索系统技术方案

技术编号:17704945 阅读:179 留言:0更新日期:2018-04-14 17:54
本发明专利技术公开了一种多语言的地图POI搜索系统,系统包括POI数据索引构建、POI搜索、结果排序3个部分,POI数据索引构建部分负责对数据库中的POI数据进行预处理,以生成便于检索的POI特征。POI搜索部分负责分析用户提交的待搜索文本,在POI数据库中进行检索匹配,生成候选结果集合,结果排序部分负责综合分析候选结果与用户查询文本之间的关联程度和POI本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列。该系统能够处理多种语言及输入习惯的POI搜索请求,提供了一种简洁高效的POI搜索系统。

【技术实现步骤摘要】
一种多语言的地图POI搜索系统
本专利技术涉及信息检索
,具体为一种多语言的地图POI搜索系统。
技术介绍
随着Internet和交通的迅速发展,电子地图在人们生活中的地位日益提高,例如交通导航、地点搜索等。以及在数据分析中,基于地图的数据可视化展示也在为商业和政策决策提供了信息支持。POI(PointOfInterest)即兴趣点,在广义上可以指代所有可以在地图上标注出来的地理对象,例如机场、店铺、交通枢纽、建筑等。这些人们感兴趣的地理对象在人们生活中起着非常重要的作用,地图中的POI点可以帮助人们进行定位、路程规划、辅助决策。POI的搜索是指是用户通过输入一串短文本,如建筑名称、街道门牌号、机构名称等,来获得该文本所指代地理对象的位置及其它属性信息。由于可能存在不同的地理对象之间重名、用户输入待搜索文本不准确等,系统需要返回有序的搜索结果序列,用户更期望的搜索目标排在靠前的位置。尽管许多的研究学者和地图服务公司在POI搜索方面做出了大量工作,提出了各种POI搜索方法,但这些方法都存在着一定的局限性。比如对于多语言的支持程度不够,处理过于复杂不适合在小规模单机地图服务系统上运行等。
技术实现思路
为实现上述目的,本专利技术提供如下技术方案:一种多语言地图POI搜索系统,包括如下步骤:(S1)POI数据索引构建:对数据库中的POI数据进行预处理,以生成便于检索的POI特征;(S2)POI搜索:分析用户提交的待搜索文本,在POI数据库中进行检索匹配,生成候选结果集合;(S3)结果排序:负责综合分析候选结果与用户查询文本之间的关联程度和POI本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列;有选的,所述步骤(S1)中的POI特征构建包含:POI之间的空间关系、POI自身的名称特征和POI自身的属性特征;所述POI之间的空间关系是根据POI点与区域、路线与区域、区域与区域之间的地理位置,将POI之间的空间关系分为包含、相交、无关;所述POI自身的属性特征是对POI属性特征进行分类,包括各级行政区划、道路、城市功能区、交通枢纽、社会机构、自然区域、店铺、住宅;所述POI自身的名称特征是对POI名称字符串进行标准化,整理成统一的形式。有选的,所述POI名称字符串进行标准化的方法包括:去除固定后缀、缩略语替换、去处冠词和不同书写习惯统一化;所述去除固定后缀为带有固定后缀的同一类型地名,添加去除后缀后的别名;所述缩略语替换是将其中的可能存在缩略形式的部分,统一替换为指定的缩略形式;所述不同书写习惯统一化是指某些国家语言中对于同一词语会有不同的书写习惯,将其统一化。有选的,所述步骤(S2)中的POI搜索包含以下步骤:(S201)文本分割:将待搜索文本按逗号分割,记为phrases;(S202)标准化:对于phrases中的每个元素phrases[i],进行POI名称的标准化,将其转化为标准形式;(S203)单词分割:对于phrases中的每个元素phrases[i],生成一个集合tokens[i],集合中每个元素均为其按照空格进行的某一种任意分割得到的字符串序列;(S204)数据库查询:对于tokens[i]中的每一个元素tokens[i][j],在数据库POI特征中检索,得到的结果为一个以tokens[i][j]为特征的地理POI点集合,记为terms[tokens[i][j]];(S205)单词片段获取:对于phrases中的每一个元素phrases[i],生成一个集合pSets[i],集合中每个元素均为其按照空格进行的某一种任意分割得到的字符串序列;(S206)符合性判断:对于pSets[i]中的每个字符串集合,逐个处理每个字符串s,那么terms[s]即为该字符串所对应的候选POI点,对于一种字符串分割,将其每一子串的候选POI结果之间进行组合,如果组合中任意两个候选结果不存在这样的冲突:不是同一POI的不同指称,且不存在地理位置上相互包含的关系,那么,保留这样的组合,选取中最小的地理对象r作为最终结果;否则抛弃。有选的,所述步骤(S3)中的结果排序采用了以下主要特征:POI热度,搜索结果汇聚性和POI类型;所述POI热度是地图用户对于POI点的每一次查看,包括点击搜索结果、点击地图标志该:点的图标,都会在数据库中为该点的热度加1;所述搜索结果汇聚性是指某个POI一定距离内其它搜索结果的数量。通常在某一个区域内会有较多包含相同关键词的POI点,该特征一定程度上可以表示这个区域更有可能是用户期望的搜索结果;所述POI类型是指不同的POI类型有不同的权重;包括各级行政区划、道路、城市功能区、交通枢纽、社会机构、自然区域、店铺和住宅。有选的,所述步骤(3)中的结果排序采用了以下减分特征:查询语序异常和词语遗漏;所述查询语序异常是针对用户输入的查询文本的语言:对于习惯采用由大到小描述地名的语言,查询结果不是按照由大到小的范围排列;或对于习惯采用由小到大描述地名的语言,查询结果不是按照由小到大的范围排列;所述词语遗漏是指用户输入的查询文本,存在某些词语没有在查询结果中出现。与现有技术相比,本专利技术的有益效果是:本专利技术可以适用于常见各种语言POI的搜索,搜索计算量较少,搜索性能较高。附图说明图1是本专利技术POI搜索系统体系结构。图2是本专利技术POI名称标准化的主要方法和例子。图3是本专利技术POI按照属性进行分类。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例:如图1至图3所示,本系统的体系结构包括三个部分:(一)POI数据索引构建。对数据库中的POI数据进行预处理,以生成便于检索的POI特征。POI之间的空间关系分析,即根据POI点与区域、路线与区域、区域与区域之间的地理位置,将POI之间的空间关系分为包含、相交、无关。POI自身的属性特征分析,即对POI属性特征进行分类,包括各级行政区划、道路、城市功能区、交通枢纽、社会机构、自然区域、店铺、住宅、其它。POI名称标准化处理,以便与检索的POI特征对比,这些处理包括:(5)为带有固定后缀的同一类型(如同一级行政区划)地名,添加去除后缀后的别名,例如:山东省=>山东济南市=>济南海淀区=>海淀(6)将其中的可能存在缩略形式的部分,统一替换为指定的缩略形式,例如:university=>univ(英语)southwest=>sw(英语)khudulich=>kdl(越南语)(7)去除其中的冠词,例如:the(英语)das(德语)(8)某些国家语言文字的不同书写习惯统一化,例如:ae=>a(德语)sss=>ss(德语)ie=>i(俄语)整理后的字符串既作为特征存入数据库中。(二)POI搜索子系统。分析用户提交的待搜索文本,在POI数据库中进行检索匹配,生成搜索结果集合。主要包含以下步骤:(1)将待搜索文本按逗号分割,本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201710284207.html" title="一种多语言的地图POI 搜索系统原文来自X技术">多语言的地图POI 搜索系统</a>

【技术保护点】
一种多语言地图POI搜索系统,其特征在于,包括如下步骤:(S1)POI数据索引构建:对数据库中的POI数据进行预处理,以生成便于检索的POI特征;(S2)POI搜索:分析用户提交的待搜索文本,在POI数据库中进行检索匹配,生成候选结果集合;(S3)结果排序:负责综合分析候选结果与用户查询文本之间的关联程度和POI本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列。

【技术特征摘要】
1.一种多语言地图POI搜索系统,其特征在于,包括如下步骤:(S1)POI数据索引构建:对数据库中的POI数据进行预处理,以生成便于检索的POI特征;(S2)POI搜索:分析用户提交的待搜索文本,在POI数据库中进行检索匹配,生成候选结果集合;(S3)结果排序:负责综合分析候选结果与用户查询文本之间的关联程度和POI本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列。2.根据权利要求1所述的一种多语言地图POI搜索系统,其特征在于,所述步骤(S1)中的POI特征构建包含:POI之间的空间关系、POI自身的名称特征和POI自身的属性特征;所述POI之间的空间关系是根据POI点与区域、路线与区域、区域与区域之间的地理位置,将POI之间的空间关系分为包含、相交、无关;所述POI自身的属性特征是对POI属性特征进行分类,包括各级行政区划、道路、城市功能区、交通枢纽、社会机构、自然区域、店铺、住宅;所述POI自身的名称特征是对POI名称字符串进行标准化,整理成统一的形式。3.根据权利要求2所述的一种多语言地图POI搜索系统,其特征在于,所述POI名称字符串进行标准化的方法包括:去除固定后缀、缩略语替换、去处冠词和不同书写习惯统一化;所述去除固定后缀为带有固定后缀的同一类型地名,添加去除后缀后的别名;所述缩略语替换是将其中的可能存在缩略形式的部分,统一替换为指定的缩略形式;所述不同书写习惯统一化是指某些国家语言中对于同一词语会有不同的书写习惯,将其统一化。4.根据权利要求1所述的一种多语言地图POI搜索系统,其特征在于,所述步骤(S2)中的POI搜索包含以下步骤:(S201)文本分割:将待搜索文本按逗号分割,记为phrases;(S202)标准化:对于phrases中的每个元素phrases[i],进行POI名称的标准化,将其转化为标准形式;(S203)单词分割:对于phrases中的每个元素phrases[i],生成一个集合tokens[i],集合中每个元素均为其按照空格进行的某一种任意分割得到的字符串序列;(S204...

【专利技术属性】
技术研发人员:董建武何跃鹰赵忠华王进卓子寒刘中金方喆君
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1