一种基于知识图谱的空间关系语义分析的方法技术

技术编号:33658666 阅读:17 留言:0更新日期:2022-06-02 20:39
本发明专利技术涉及语义分析领域,公开了一种基于知识图谱的空间关系语义分析的方法,具体包括:从大规模语料库中提取地理实体及其关系表达,并通过语义计算的方法对地理实体及其关系描述进行语义量化,结合地理实体类型分析地理实体和关系表达之间的对应关系,以及地理实体/关系描述的相似性、相异性,最后结合空间关系的几何定性/定量化模型,细化空间关系语义的几何特征。实施本发明专利技术有利于丰富空间关系的自然语言表达,提升地理实体

【技术实现步骤摘要】
一种基于知识图谱的空间关系语义分析的方法


[0001]本专利技术涉及语义分析领域,尤其涉及一种基于知识图谱的空间关系语义分析的方法。

技术介绍

[0002]空间关系作为人们认知现实地理空间的重要组成,成为了地理信息系统(GIS)研究的 主要内容,其研究进展直接影响着空间数据模型、空间数据库查询、空间分析、空间推理 制图综合、地图理解、自然语言界面标准化等方面的研究发展和应用。大多数情况下,GIS 用户可以用图形和数字量化拓扑,距离以及方向关系,但除此之外更广泛的空间关系则存 在于用户的认知和语言表达当中。20世纪九十年代,美国国家地理信息分析中心(NCGIA) 将空间关系的自然语言表达作为重要议题之一,旨在通过形式化更真实的神经认知来处理 地理信息的语义,从而将其应用于地理信息科学。在此研究议题下,Egenhofer和Mark进 一步提出了“朴素地理学”的概念,它被定义为人们具有的对周围地理世界的知识,这些 知识中包含着一套遵循人类认知直觉的理论体系,可利用于地理信息系统的设计从而使得 非专业GIS用户更易使用。从空间关系的语义表达的角度来看,这些直觉中包括人类对地 理空间的几何认知,地物本身具有的语义特征、地物抽象类型等非几何属性,相对于基于 坐标的空间关系计算,这种高度抽象概念化的空间关系描述更为模糊和不确定,但却更接 近人们的使用习惯以及认知过程。
[0003]为了建立GIS系统与人类空间认知表达之间的语义映射,研究者们通过进行认知实验, 开发设计本体,建立地理语义网(Semantic Web)等手段加以实现,但受制于语义研究方 法以及数据来源,对于空间关系的语义研究有限,随着自然语言处理技术以及链接数据 (Geo Linked Data)的不断发展和完善,语义计算成为了我们进一步理解文本表达的新视 角,再加上大量可获取的自然语言描述,一方面从统计的角度,便于分析人们对不同地理 实体所使用的不同空间关系描述,另一方面从计算的角度,便于结合各种外在因子计算空 间关系描述的差别与相似之处。在大数据时代,人们的语言表达被大量采集记录,形成了 各种各样的不同领域不同语言的文本语料库,即主题不限,内容不限的开放域,这些文本 中蕴含着人们对所生活的现实环境的大量且多种的地理空间描述,这对研究自然语言中的 空间关系语义的识别提供了巨大的数据支持。此外,深度学习以及自然语言处理(NLP)技 术的出现与飞速发展也为空间关系的语义研究提供了巨大的便利,使得自然语言可计算和 度量,比如Word2vec模型已经可以通过训练得到“Germany

Berlin+France=Paris
”ꢀ
这样隐含空间关系的语义关系,我们可以深入考虑应用这些技术来发现更多的空间关系。 但是如何从巨大的结构化、半结构化以及非结构化文本中提取并有效组织地理信息,知识 图谱的出现提供了一种有效的解决思路,首先,RDF三元组的数据组织形式可以明确描述 地理实体与空间关系,此外在知识图上发展的一系列技术手段也有助于分析地理实体及其 对应的空间关系描述。
[0004]而现有技术中研究者为了描述地理实体及其关系,起初将空间关系描述局限在单
一的 空间关系上,存在表达位置信息不足的问题,之后研究者尝试组合多种空间关系进行描述, 张珂等人基于四叉树直方图来描述空间方向关系或细节方向关系,之后根据不同的应用人 工建立在外部参考框架下的空间方向关系词和程度修饰词词典,并基于模糊规则选取适当 的方向关系词,程度修饰词和距离关系词生成类似人的空间关系自然语言描述;对于电子 地图导航中常用的路径描述,张雪英等人通过人工收集词汇库,建立描述句法模式以及获 取路径补充信息,基于路径的方向判断生成自然语言路径描述,张彩丽等人通过分解移动 点的运动轨迹,描述移动点与参考物的拓扑关系,之后综合考虑整个轨迹与地物间的方向 关系和距离关系,进行集成描述。
[0005]然而,从空间关系模型表达出发以及人工定义描述词典却并不能准确涵盖所有人们习 惯的空间关系描述,且需耗费大量的人力进行语言表达规则的总结,无法有效建立空间关 系与自然语言描述的映射关系。

技术实现思路

[0006]为了解决现有技术中因空间关系模型表达以及人工定义描述词典无法准确涵盖所有人 们习惯的空间关系描述无法有效建立空间关系与自然语言描述的映射关系的技术问题,本 专利技术公开了一种基于知识图谱的空间关系语义分析的方法,从大规模语料库中提取地理实 体及其关系表达,并通过语义计算的方法对地理实体及其关系描述进行语义量化,结合地 理实体类型分析地理实体和关系表达之间的对应关系,以及地理实体/关系描述的相似性、 相异性,最后结合空间关系的几何定性/定量化模型,细化空间关系语义的几何特征。
[0007]具体实现的技术方案包括:
[0008]一种基于知识图谱的空间关系语义分析的方法,包括:
[0009]以维基百科英文正文文本为数据源,使用命名实体识别算法spaCy识别地理实体;
[0010]通过关系抽取算法Stanford OpenIE抽取所述地理实体之间的空间关系描述,获取地 理实体三元组,并根据所述地理实体和所述地理实体三元组构建地名关系知识图谱;
[0011]利用Google Map的地理编码API进行地名搜索,获取所述地理实体三元组的地名类型 以及地名坐标;
[0012]基于地名关系知识图谱并利用预设模型,通过联合训练的方式,结合地物类型,对地 名

空间关系三元组进行嵌入计算,得到所述地理实体、地物类型和空间关系的嵌入向量, 所述预设模型包括TransE、TransD或RotatE;
[0013]针对所述嵌入向量进行相似性计算和聚类分析,得到不同地理实体类型所对应的空间 关系描述,以及相似性超过预设阈值的空间关系描述所对应的不同类型的地理实体。
[0014]优选地,所述方法还包括:
[0015]利用坐标匹配方法使用Geonames地名词典分类体系对自然地物类型进行细化分类。
[0016]优选地,所述利用Google Map的地理编码API进行地名搜索,获取所述地理实体三元 组的地名类型以及地名坐标,具体包括:
[0017]从识别的所述地理实体中提取所有Google Map类型为Natural_feature的地名,以及利 用地名编码所获取的地名坐标与Geonames地名词典分类体系的地名坐标进行最短
距离匹 配,得到Geonames中与所查找地名匹配成功的地名类型。
[0018]优选地,将未获取到地名类型以及地名坐标的地理实体三元组剔除。
[0019]优选地,所述得到所述地理实体和空间关系的嵌入向量,之后还包括:利用T

SNE将 所述嵌入向量进行降维并可视化。
[0020]优选地,利用T

SNE将所述嵌入向量进行降维并可视化具体为:利用T

SNE对大量的 地名及空间关系描述词嵌入进行语义层面的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的空间关系语义分析的方法,其特征在于,包括:以维基百科英文正文文本为数据源,使用命名实体识别算法spaCy识别地理实体;通过关系抽取算法Stanford OpenIE抽取所述地理实体之间的空间关系描述,获取地理实体三元组,并根据所述地理实体和所述地理实体三元组构建地名关系知识图谱;利用Google Map的地理编码API进行地名搜索,获取所述地理实体三元组的地名类型以及地名坐标;基于地名关系知识图谱并利用预设模型,通过联合训练的方式,结合地物类型,对地名

空间关系三元组进行嵌入计算,得到所述地理实体、地物类型和空间关系的嵌入向量,所述预设模型包括TransE、TransD或RotatE;针对所述嵌入向量进行相似性计算和聚类分析,得到不同地理实体类型所对应的空间关系描述,以及相似性超过预设阈值的空间关系描述所对应的不同类型的地理实体。2.如权利要求1所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,还包括:利用坐标匹配方法使用Geonames地名词典分类体系对自然地物类型进行细化分类。3.如权利要求2所述的一种基于知识图谱的空间关系语义分析的方法,其特征在于,所述利用Google Map的地理编码API进行地名搜索,获取所述地理实体三元组的地名类型以及地名坐标,具体包括:从识别的所述地理实体中提取所有Google Map类型为Natural_feature的地名,以及利用地名编码所获取的地名坐标与Geonames地名词典分类体系的地名坐标进行最短距离匹配,得到Geonames中与所查找地名匹配成功的地名类型。4.如权利要求1

3任一项所述的一种基于知识图谱的空间关系语义分析的方法,其特征...

【专利技术属性】
技术研发人员:许珺胡蕾
申请(专利权)人:中国科学院地理科学与资源研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1