基于检索词与空间范围的深网POI数据获取方法及系统技术方案

技术编号:20916736 阅读:24 留言:0更新日期:2019-04-20 09:44
本发明专利技术公开了一种基于检索词与空间范围的深网POI数据获取方法及系统,方法包括以下步骤:S1,生成潜在检索词并构建潜在检索词集合;S2,利用贪婪式查询策略构建倒排索引表;S3,生成基于重复覆盖迭代计算的检索词序列;S4,基于POI数据类别进行分治化创建爬取任务;S5,基于地理范围剖分策略进行深网POI数据爬行。系统包括潜在检索词集合构建模块、倒排索引表构建模块、检索词序列生成模块、爬取任务创建模块和深网POI数据爬行模块。本发明专利技术实现了对深网POI数据的全量获取,并确保在尽量小的检索词集合的情况下,使得爬行的深网POI数据达到最大的覆盖率。

POI Data Acquisition Method and System of Deep Web Based on Retrieval Words and Spatial Range

The invention discloses a method and system for obtaining POI data in deep web based on search terms and spatial range, which includes the following steps: S1, generating potential search terms and constructing a set of potential search terms; S2, using greedy query strategy to construct inverted index table; S3, generating a sequence of search terms based on repeated overlay iteration calculation; S4, dividing and conquering creation based on POI data categories. Crawling task; S5, based on geographic range partitioning strategy for deep-net POI data crawling. The system includes potential search word set building module, inverted index table building module, search word sequence generating module, crawling task creating module and deep-net POI data crawling module. The invention realizes the full acquisition of deep-net POI data, and ensures that the crawling deep-net POI data achieves the maximum coverage under the condition of the smallest set of search terms.

【技术实现步骤摘要】
基于检索词与空间范围的深网POI数据获取方法及系统
本专利技术涉及一种基于检索词与空间范围的深网POI数据获取方法及系统,属于地理信息

技术介绍
近年来,随着移动互联等新技术的不断发展,网络地理信息资源越来越丰富,使得互联网成为了地理信息共享、传播和应用的主要平台。兴趣点(PointofInterest:POI)作为地理信息服务的重要内容,是一个包含名称、地址、经纬度等带位置信息的综合信息,能够通过在地图上直观地标注现实世界的实体及其相关属性,给人们的生活带来极大的便利,也是影响导航和位置服务质量的重要因素。由于其内容与用户关注的主题紧密相关,因而成为地理信息服务最鲜活的“血液”。互联网上的POI数据资源极其庞大,且大多位于深网网络中。随着大数据技术日益兴起,政府、公众和企业等各类用户对多样化、集成化空间信息服务的需求日益迫切,充分整合和挖掘深网网络中蕴含的POI数据,对于丰富地理信息资源、提升空间信息服务能力具有重要意义;另一方面,在线POI服务中时常出现有关军事设施、个人隐私等内容,但由于其无法被通用搜索引擎发现而导致难以监管,深网POI数据挖掘也逐渐受到国家相关部门的高度重视。目前,国内外学者在深网信息检索方面开展了大量研究,但是面向POI的深网获取的研究还很少。深网POI数据获取的核心问题是实现服务后台数据库中POI数据的自动下载,并确保在尽量小的代价下实现最大程度的数据覆盖。由于POI查询服务具有分类不定、检索词不确定、位置条件受限等特点,因而采用枚举属性和遍历检索的普通深网数据获取方法难以实现对深网POI数据的有效覆盖。
技术实现思路
对以上方法存在的不足,本专利技术提出了一种基于检索词与空间范围的深网POI数据获取方法及系统,其能够逼近POI搜索的最大覆盖最优解。本专利技术解决其技术问题采取的技术方案是:一方面,本专利技术实施例提供的一种基于检索词与空间范围的深网POI数据获取方法,可以包括以下步骤:S1,生成潜在检索词并构建潜在检索词集合:通过整理地理信息网站POI数据的分类目录获得分类名词、采用特征词抽取算法从POI样本库中提取类别特征词,以及对分类名词和类别特征词的同义词补充,生成潜在检索词,并将生成的潜在检索词存入构建的潜在检索词集合中;S2,利用贪婪式查询策略构建倒排索引表;对每个潜在检索词构建深网POI数据查询请求,通过记录各检索词的检索历史形成检索记录表,并在检索记录表基础上构建检索倒排索引表;S3,生成基于重复覆盖迭代计算的检索词序列:按照POI数据的既有分类,通过不断调整重复覆盖率阈值,多次迭代计算对应于各类POI数据爬行的检索词集合,生成检索词序列;S4,基于POI数据类别进行分治化创建爬取任务:按照POI数据类别对爬行任务进行划分,对每一个任务分支,从优化的检索词集合中查询出对应类型的检索词序列,按照序列中各成员的有效覆盖率排序,顺次创建对应于每个检索词的深网POI数据爬取任务;S5,基于地理范围剖分策略进行深网POI数据爬行:在检索过程中,检索词在某一区域所能返回的最大记录是受限的则对该区域进行地理范围剖分,并变更爬行任务进行信息检索与获取。结合作为本实施例一种可能的实现方式,所述步骤S1具体包括以下步骤:S11:对提供POI服务的地理信息网站的分类目录进行整理,形成对应于各个地理信息网站的POI分类名词,并将其作为潜在检索词的种子;S12:采用基于bigram模型的POI类别特征词提取算法对样本库中POI对象的名称信息进行处理,抽取出类别特征词;S13:在分类词及特征词集合基础上,通过语义相似度计算提取出近义词,增加到潜在检索词集合中,生成最终的潜在检索词集合。结合作为本实施例一种可能的实现方式,所述步骤S2具体包括以下步骤:S21:利用潜在检索词集合构建对应于每一个检索词的查询请求,对深网POI数据服务在测试区域进行查询,并完整记录每个查询请求及其响应的POI数据;S22:通过记录各检索词的检索历史形成检索记录表,其中,检索记录表的第一列和第二列分别记录在探测查询过程中返回的POI的代码和类型信息,检索记录表的第三列记录所有检索出该POI的检索词;S23:对检索记录表中记录按照类型字段进行归并,形成包含POI类型与检索词的关联关系的检索倒排索引表;其中,检索倒排索引表的第一列为类型字段,第二列记录了对应于指定POI类别的检索词及其对应的命中次数;S24:基于检索倒排索引表,采用数据库检索技术快速获取查询词命中数、查询命中率和检索词的重复命中率。结合作为本实施例一种可能的实现方式,所述步骤S3具体包括以下步骤:S31:创建优化检索词集合和等效序列集合,分别用于存储最终确定的爬行检索词和舍弃不用的检索词,且均初始化为空集;S32:从检索记录表中获取相应类型的检索词序列,并按照类型和爬行覆盖率大小对检索词进行排序;S33:按类型依次选择其中爬行覆盖率最大的检索词,并将其从该类型检索词序列中移除,计算爬行覆盖率最大的检索词与潜在检索词集合中已有关键词的重复覆盖率;S34:判断检索词的重复覆盖率与给定覆盖率阈值的大小,如果重复覆盖率小于给定覆盖率阈值则将该检索词压入优化检索词集合,反之则压入等效序列集合;S35:重复执行上述步骤S32-S34操作,直至该类型的检索词序列为空后转入S36;S36:计算优化检索词集合中检索词的有效覆盖率,如果有效覆盖率大于给定覆盖率阈值,则确定优化检索词集合并结束;反之,则调整给定覆盖率阈值,并返回步骤S32,直至优化检索词集合中检索词的有效覆盖率大于给定覆盖率阈值为止。结合作为本实施例一种可能的实现方式,所述步骤S4具体包括以下步骤:S41:根据POI数据类别,按照类别进行划分爬行任务;S42:对每一个分支爬行任务,从优化检索词集合中查询出对应某一类型的检索词序列,按照序列中检索词的有效覆盖率排序,顺次创建对应于每个检索词的深网POI数据爬取任务;S43:重复步骤S42,直至所有POI数据类别都生成一组待运行的爬行任务为止。结合作为本实施例一种可能的实现方式,所述步骤S5具体包括以下步骤:S51:根据输入的检索词和待爬取的地理空间范围构建爬行任务,并设置爬行深度为0;S52:启动爬行任务,构造并发送深网POI数据请求;S53:将获取POI信息存储到POI列表;S54:抽取输入检索词在待爬取的地理空间范围获取到的记录总数,如果记录总数超过设定限制条数,则对当前地理空间范围进行N×N剖分,生成N×N个爬行子任务并压入任务池,同时将当前任务从任务池中移除并销毁,反之进入步骤S55,N为大于等于2的正整数;S55:将当前任务爬取深度加1并返回到步骤S52,直至任务池内爬行任务和爬行子任务执行完毕。另一方面,本专利技术实施例提供的一种基于检索词与空间范围的深网POI数据获取系统,其特征是,包括:潜在检索词集合构建模块,生成潜在检索词并构建潜在检索词集合;倒排索引表构建模块,利用贪婪式查询策略构建倒排索引表;检索词序列生成模块,生成基于重复覆盖迭代计算的检索词序列;爬取任务创建模块,基于POI数据类别进行分治化创建爬取任务;深网POI数据爬行模块,基于地理范围剖分策略进行深网POI数据爬行。结合作为本实施例一种可能的实现方式,所述潜在检索词集合构建本文档来自技高网...

【技术保护点】
1.一种基于检索词与空间范围的深网POI数据获取方法,其特征是,包括以下步骤:S1,生成潜在检索词并构建潜在检索词集合:通过整理地理信息网站POI数据的分类目录获得分类名词、采用特征词抽取算法从POI样本库中提取类别特征词,以及对分类名词和类别特征词的同义词补充,生成潜在检索词,并将生成的潜在检索词存入构建的潜在检索词集合中;S2,利用贪婪式查询策略构建倒排索引表;对每个潜在检索词构建深网POI数据查询请求,通过记录各检索词的检索历史形成检索记录表,并在检索记录表基础上构建检索倒排索引表;S3,生成基于重复覆盖迭代计算的检索词序列:按照POI数据的既有分类,通过不断调整重复覆盖率阈值,多次迭代计算对应于各类POI数据爬行的检索词集合,生成检索词序列;S4,基于POI数据类别进行分治化创建爬取任务:按照POI数据类别对爬行任务进行划分,对每一个任务分支,从优化的检索词集合中查询出对应类型的检索词序列,按照序列中各成员的有效覆盖率排序,顺次创建对应于每个检索词的深网POI数据爬取任务;S5,基于地理范围剖分策略进行深网POI数据爬行:在检索过程中,检索词在某一区域所能返回的最大记录是受限的则对该区域进行地理范围剖分,并变更爬行任务进行信息检索与获取。...

【技术特征摘要】
1.一种基于检索词与空间范围的深网POI数据获取方法,其特征是,包括以下步骤:S1,生成潜在检索词并构建潜在检索词集合:通过整理地理信息网站POI数据的分类目录获得分类名词、采用特征词抽取算法从POI样本库中提取类别特征词,以及对分类名词和类别特征词的同义词补充,生成潜在检索词,并将生成的潜在检索词存入构建的潜在检索词集合中;S2,利用贪婪式查询策略构建倒排索引表;对每个潜在检索词构建深网POI数据查询请求,通过记录各检索词的检索历史形成检索记录表,并在检索记录表基础上构建检索倒排索引表;S3,生成基于重复覆盖迭代计算的检索词序列:按照POI数据的既有分类,通过不断调整重复覆盖率阈值,多次迭代计算对应于各类POI数据爬行的检索词集合,生成检索词序列;S4,基于POI数据类别进行分治化创建爬取任务:按照POI数据类别对爬行任务进行划分,对每一个任务分支,从优化的检索词集合中查询出对应类型的检索词序列,按照序列中各成员的有效覆盖率排序,顺次创建对应于每个检索词的深网POI数据爬取任务;S5,基于地理范围剖分策略进行深网POI数据爬行:在检索过程中,检索词在某一区域所能返回的最大记录是受限的则对该区域进行地理范围剖分,并变更爬行任务进行信息检索与获取。2.根据权利要求1所述的基于检索词与空间范围的深网POI数据获取方法,其特征是,所述步骤S1具体包括以下步骤:S11:对提供POI服务的地理信息网站的分类目录进行整理,形成对应于各个地理信息网站的POI分类名词,并将其作为潜在检索词的种子;S12:采用基于bigram模型的POI类别特征词提取算法对样本库中POI对象的名称信息进行处理,抽取出类别特征词;S13:在分类词及特征词集合基础上,通过语义相似度计算提取出近义词,增加到潜在检索词集合中,生成最终的潜在检索词集合。3.根据权利要求1所述的基于检索词与空间范围的深网POI数据获取方法,其特征是,所述步骤S2具体包括以下步骤:S21:利用潜在检索词集合构建对应于每一个检索词的查询请求,对深网POI数据服务在测试区域进行查询,并完整记录每个查询请求及其响应的POI数据;S22:通过记录各检索词的检索历史形成检索记录表,其中,检索记录表的第一列和第二列分别记录在探测查询过程中返回的POI的代码和类型信息,检索记录表的第三列记录所有检索出该POI的检索词;S23:对检索记录表中记录按照类型字段进行归并,形成包含POI类型与检索词的关联关系的检索倒排索引表;其中,检索倒排索引表的第一列为类型字段,第二列记录了对应于指定POI类别的检索词及其对应的命中次数;S24:基于检索倒排索引表,采用数据库检索技术快速获取查询词命中数、查询命中率和检索词的重复命中率。4.根据权利要求1所述的基于检索词与空间范围的深网POI数据获取方法,其特征是:所述步骤S3具体包括以下步骤:S31:创建优化检索词集合和等效序列集合,分别用于存储最终确定的爬行检索词和舍弃不用的检索词,且均初始化为空集;S32:从检索记录表中获取相应类型的检索词序列,并按照类型和爬行覆盖率大小对检索词进行排序;S33:按类型依次选择其中爬行覆盖率最大的检索词,并将其从该类型检索词序列中移除,计算爬行覆盖率最大的检索词与潜在检索词集合中已有关键词的重复覆盖率;S34:判断检索词的重复覆盖率与给定覆盖率阈值的大小,如果重复覆盖率小于给定覆盖率阈值则将该检索词压入优化检索词集合,反之则压入等效序列集合;S35:重复执行上述步骤S32...

【专利技术属性】
技术研发人员:罗安王勇刘纪平崔腾腾
申请(专利权)人:中国测绘科学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1