【技术实现步骤摘要】
一种面向多源地名数据的高效融合与检索系统及方法
[0001]本专利技术涉及计算机信息
,具体涉及一种面向多源地名数据的高效融合与检索系统。
技术介绍
[0002]地名是一种非常重要的空间信息。作为国家自然资源、社会管理与地理空间信息的重要组成部分,内政外交、经济社会、生产生活等各个领域的现代管理和服务活动,都需要地名信息的支持和服务。但我国的全球地名数据库建设并不是很完善,如官方中国国家地名信息库只提供国内地名数据,一些国内地图服务商如高德、百度地图,其数据也只是针对中国及一些周边国家和地区,涉及国外的行政地名数据主要是一些大城市的数据。随着城市建设的智慧化和智能化的不断深入,地名数据作为最基本的地理空间数据之一,在位置查询、路径规划等服务中得到了广泛的应用。地名数据库的完整性与准确性,对这些服务的质量具有非常重要的意义。
[0003]地名数据具有数据量庞大、数据更新频繁的特点,全球涉及200多个国家,上亿条地名数据,以采集的方式构建全球地名数据,具有生产成本高、生产过程复杂、周期长等一系列问题。通过互联网获取 ...
【技术保护点】
【技术特征摘要】
1.一种多源地名数据源高效融合与检索系统,其特征在于,包括多源地名数据处理模块和全球地名数据搜索模块,其中:多源地名数据处理模块用于分析开源地名数据的内部结构提取共性字段,定义满足业务需求的标准化地名数据结构,并基于定义的标准化地名数据结构,对不同来源的地名数据进行地名数据的解析、筛选和到标准化地名数据结构的转换;以及定义地名数据的重复性检验规则,对标准化后的地名数据进行判重,检查转换后的地名数据是否在地名数据库中已存在,若存在则进行地名数据更新,否则将转换后的地名数据加入地名数据库中;全球地名数据搜索模块用于建立名称索引和空间位置索引,基于分词索引的地名名称进行地名查询,以及基于地理范围或者地理点和半径进行定位查询。2.根据权利要求1所述的多源地名数据源高效融合与检索系统,其特征在于,所述多源地名数据处理模块包括地名数据接入模块和地名数据标准化融合模块,其中:地名数据接入模块用于读取、解析开源地名数据,支持读取OSM地名数据的pbf、xml格式,GeoName地名数据的TXT格式,生成对应的数据格式类对象;地名数据标准化融合模块包括地名数据标准化模块和地名数据融合模块,其中,地名数据标准化模块用于根据业务的需求定义标准化的地名数据结构,并将开源地名数据转化为标准化地名数据结构,即建立开源地名数据的字段与标准化的地名格式字段的映射关系,将开源地名数据中的一个字段或多字段组合后转换为标准化的地名数据,对于标准化地名数据中未涵盖的冗余字段予以舍弃;地名数据融合模块用于对标准化后的地名数据进行数据的重复性检验和融合,地名数据重复性检验是定义地名数据重复性检验规则,利用地名名称相似程度和/或地理位置相似程度判断两条地名数据是否为相同数据,当相似程度超过某一阈值时,则认为数据为同一个地名数据;地名数据融合是使用不同来源的地名数据中有效的地名字段,更新地名库中已有的地名数据,或插入新增的地名数据,在进行地名数据融合时,对于存在多个历史版本的地名数据,始终保持最新数据被设置为有效状态,供后续检索和使用。3.根据权利要求2所述的多源地名数据源高效融合与检索系统,其特征在于,所述地名数据标准化模块将地名数据接入模块中输出的开源地名数据作为输入,转化为标准的地名数据结构,标准化过程包括提取开源地名数据中具有直接映射关系的字段,合并不重要的同类型字段,拆分能够过滤、拆分的地名数据,一致化开源数据源中标准不一致的字段,生成开源地名数据源中不存在的字段,以及添加标识数据来源的字段和中文地名字段。4.根据权利要求1所述的...
【专利技术属性】
技术研发人员:朱利鲁,胡岩峰,高瞻,苏晓露,
申请(专利权)人:中国科学院电子学研究所苏州研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。