一种多源地理实体语料库构建方法、介质及设备技术

技术编号:38535432 阅读:10 留言:0更新日期:2023-08-19 17:06
本发明专利技术公开了一种多源地理实体语料库构建方法、介质及设备,所述方法包括:获取第一自发地理信息语料数据;其中,所述第一自发地理信息语料数据包括多个地理实体术语;计算所述多个地理实体术语之间的语义相似度;根据所述多个地理实体术语之间的语义相似度,对所述第一自发地理信息语料数据进行对齐处理,得到第二自发地理信息语料数据;基于预先获取的第一GIS数据和所述第二自发地理信息语料数据,构建多源地理实体语料库。本发明专利技术实施例能够更精准地计算得到不同地理实体术语之间的语义相似度,进而提高语料数据对齐的效率与准确性,并利用对齐后的语料数据扩充GIS数据,从而构建更丰富、更精准的多源地理实体语料库。更精准的多源地理实体语料库。更精准的多源地理实体语料库。

【技术实现步骤摘要】
一种多源地理实体语料库构建方法、介质及设备


[0001]本专利技术涉及数据处理领域,尤其涉及一种多源地理实体语料库构建方法、介质及设备。

技术介绍

[0002]在生态文明建设背景下,自然资源规划部门要实现部门调动中的协同、统一,也要在工作实践中做到高效、实用,因此需要依靠新型基础测绘的产品体系突破空间规划和资源管理等工作中的瓶颈。根据自然资源规划部门实际工作需求,构建地理实体

关系

属性的实体关系网络,探索广州新型基础测绘“地理实体”应用场景,实现多专业标准融合、语境切换、智能搜索等功能,助力自然资源规划部门实现自动化数据治理与智能化业务办理。
[0003]现有技术中构建的不同地理实体之间的关系数据库不够精准,进一步导致在将其用于为检索提供服务时,检索结果不够精准。

技术实现思路

[0004]为了解决上述技术问题,本专利技术实施例提出了一种多源地理实体语料库构建方法、介质及设备,能够构建更丰富、更精准的地理实体语料库。
[0005]为了实现上述目的,本专利技术实施例提供了一种多源地理实体语料库构建方法,包括:
[0006]获取第一自发地理信息语料数据;其中,所述第一自发地理信息语料数据包括多个地理实体术语;
[0007]计算所述多个地理实体术语之间的语义相似度;
[0008]根据所述多个地理实体术语之间的语义相似度,对所述第一自发地理信息语料数据进行对齐处理,得到第二自发地理信息语料数据;
[0009]基于预先获取的第一GIS数据和所述第二自发地理信息语料数据,构建多源地理实体语料库。
[0010]进一步的,所述计算所述多个地理实体术语之间的语义相似度,具体包括:
[0011]获取每一所述地理实体术语的描述术语集;
[0012]对每一所述地理实体术语的描述术语集进行词性处理,得到每一所述地理实体术语的定义术语集;
[0013]根据每一所述地理实体术语的定义术语集,构建每一所述地理实体术语的向量;
[0014]根据每一所述地理实体术语的向量,构建所述多个地理实体术语两两之间的相似矩阵;
[0015]基于所述多个地理实体术语两两之间的相似矩阵和每一所述地理实体术语的向量,计算所述多个地理实体术语两两之间的语义相似度。
[0016]进一步的,所述词性处理包括词性还原处理和词性标签处理。
[0017]进一步的,所述根据每一所述地理实体术语的定义术语集,构建每一所述地理实
体术语的向量,具体包括:
[0018]基于预先获取的文本语料库和每一所述地理实体术语的定义术语集,计算每一所述地理实体术语的定义术语集所对应的权重分布;
[0019]采用预先配置的词性过滤器,对每一所述地理实体术语的定义术语集进行过滤;
[0020]基于每一所述权重分布和过滤后的每一所述地理实体术语的定义术语集,构建每一所述地理实体术语的向量。
[0021]进一步的,所述根据每一所述地理实体术语的向量,构建所述多个地理实体术语两两之间的相似矩阵,具体包括:
[0022]基于预先配置的第一相似度函数和每一所述地理实体术语的向量,构建所述多个地理实体术语两两之间的相似矩阵。
[0023]进一步的,所述基于所述多个地理实体术语两两之间的相似矩阵和每一所述地理实体术语的向量,计算所述多个地理实体术语两两之间的语义相似度,具体包括:
[0024]基于预先配置的第二相似度函数、所述多个地理实体术语两两之间的相似矩阵和每一所述地理实体术语的向量,计算所述多个地理实体术语两两之间的语义相似度。
[0025]进一步的,所述基于预先获取的第一GIS数据和所述第二自发地理信息语料数据,构建多源地理实体语料库,具体包括:
[0026]对所述第一GIS数据和所述第二自发地理信息语料数据进行实体对齐操作,以使所述第一GIS数据对应于所述第二自发地理信息语料数据;
[0027]根据所述第二自发地理信息语料数据,对所述第一GIS数据中的GIS属性数据进行扩充处理,得到第二GIS数据;
[0028]基于所述第二GIS数据和所述第二自发地理信息语料数据,构建多源地理实体语料库。
[0029]进一步的,还包括:
[0030]采用关系型数据库存储从所述第二GIS数据中提取的GIS空间数据,以及从所述第二自发地理信息语料数据中提取的结构化语义信息;
[0031]采用图数据库存储从所述第二GIS数据中提取的空间关系,以及从所述第二自发地理信息语料数据中提取的语义关系。
[0032]本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的多源地理实体语料库构建方法的步骤。
[0033]本专利技术实施例还提供了一种计算机设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的多源地理实体语料库构建方法的步骤。
[0034]综上,本专利技术具有以下有益效果:
[0035]采用本专利技术实施例,能够更精准地计算得到不同地理实体术语之间的语义相似度,进而提高语料数据对齐的效率与准确性,并利用对齐后的语料数据扩充GIS数据,从而构建更丰富、更精准的多源地理实体语料库,进一步的,在将上述多源地理实体语料库应用于相应的检索时,能够得到更精确的检索结果,最终为国土空间规划与自然资源管理等业务工作赋能
附图说明
[0036]图1是本专利技术提供的一种多源地理实体语料库构建方法的一个实施例的流程示意图;
[0037]图2是本专利技术提供的多个地理实体术语之间的语义相似度的一个实施例的示意图;
[0038]图3是本专利技术提供的不同地理实体之间的空间关联程度的一个实施例的示意图;
[0039]图4是本专利技术提供的GIS数据和自发地理信息语料数据之间的关系示意图。
具体实施方式
[0040]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]参见图1,是本专利技术提供的多源地理实体语料库构建方法的一个实施例的流程示意图,该方法包括步骤S1至S4,具体如下:
[0042]S1,获取第一自发地理信息语料数据;其中,所述第一自发地理信息语料数据包括多个地理实体术语;
[0043]S2,计算所述多个地理实体术语之间的语义相似度;
[0044]S3,根据所述多个地理实体术语之间的语义相似度,对所述第一自发地理信息语料数据进行对齐处理,得到第二自发地理信息语料数据;
[0045]S4,基于预先获取的第一GIS数据和所述第二自发地理信息语料数据,构建多源地理实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源地理实体语料库构建方法,其特征在于,包括:获取第一自发地理信息语料数据;其中,所述第一自发地理信息语料数据包括多个地理实体术语;计算所述多个地理实体术语之间的语义相似度;根据所述多个地理实体术语之间的语义相似度,对所述第一自发地理信息语料数据进行对齐处理,得到第二自发地理信息语料数据;基于预先获取的第一GIS数据和所述第二自发地理信息语料数据,构建多源地理实体语料库。2.如权利要求1所述的多源地理实体语料库构建方法,其特征在于,所述计算所述多个地理实体术语之间的语义相似度,具体包括:获取每一所述地理实体术语的描述术语集;对每一所述地理实体术语的描述术语集进行词性处理,得到每一所述地理实体术语的定义术语集;根据每一所述地理实体术语的定义术语集,构建每一所述地理实体术语的向量;根据每一所述地理实体术语的向量,构建所述多个地理实体术语两两之间的相似矩阵;基于所述多个地理实体术语两两之间的相似矩阵和每一所述地理实体术语的向量,计算所述多个地理实体术语两两之间的语义相似度。3.如权利要求2所述的多源地理实体语料库构建方法,其特征在于,所述词性处理包括词性还原处理和词性标签处理。4.如权利要求2所述的多源地理实体语料库构建方法,其特征在于,所述根据每一所述地理实体术语的定义术语集,构建每一所述地理实体术语的向量,具体包括:基于预先获取的文本语料库和每一所述地理实体术语的定义术语集,计算每一所述地理实体术语的定义术语集所对应的权重分布;采用预先配置的词性过滤器,对每一所述地理实体术语的定义术语集进行过滤;基于每一所述权重分布和过滤后的每一所述地理实体术语的定义术语集,构建每一所述地理实体术语的向量。5.如权利要求2所述的多源地理实体语料库构建方法,其特征在于,所述根据每一所述地理实体术语的向量,构建所述多个地理实体术语两两之间的相似矩阵,具体包括:基于...

【专利技术属性】
技术研发人员:郭亮黄晔陶岚胡碧菡龙洋周泊远
申请(专利权)人:广州市城市规划勘测设计研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1