一种地质知识图谱构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32773583 阅读:12 留言:0更新日期:2022-03-23 19:29
本发明专利技术公开了一种地质知识图谱构建方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,解决现有非结构化数据无法利用到知识图谱构建的技术问题;本发明专利技术一种地质知识图谱构建方法,包括:S1、模型建立;S2、实体信息结构化;S3、实体关系信息结构化;S4、知识图谱构建。本发明专利技术将非结构化数据中的实体数据以及实体关系数据提取出来,构建出更为完善的地质领域的知识图谱,方便使用者查询、了解相关信息。同时,本发明专利技术利用Neo4j图形化数据库构建了成果地质矿产领域的知识图谱并优化了可视化界面,将地质矿产领域知识图谱以3D的方式呈现,提升使用者查询方便性。提升使用者查询方便性。提升使用者查询方便性。

【技术实现步骤摘要】
一种地质知识图谱构建方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理
,更具体地是涉及一种地质知识图谱构建方法、装置、电子设备及存储介质


技术介绍

[0002]知识图谱的概念诞生于2012年,此概念由Google公司首先提出,其是自然语言处理一个热门方向。知识图谱的提出是为了准确地阐述人、事、物之间的关系,其最早应用于搜索引擎。随着科学技术发展,这项技术被广泛应用于聊天机器人、智能医疗、推荐系统、地质资料等许多重要领域。其中,地质资料主要来源与信息丰富的馆藏成果地质资料,其是指地质资料汇交人将成果地质资料按规定汇交后,由馆藏机构进行保管和提供利用的成果地质资料。馆藏成果地质资料是国家重要的基础性信息资源,是社会化的公共产品。
[0003]目前,自然资源行政主管部门和地质资料馆藏机构已经着手搭建“互联网+地质云”资料管理和服务体系,期待实现跨地区、跨层级的信息共享、业务协同和多级联动,以满足到馆用户或者互联网有资质用户获取更有价值的信息。但是现有的地质资料知识图谱构建中,存在如下几个问题:
[0004](1)馆藏成果地质的数据从不同的数据源中抽取出来:数据来源渠道多,主流为两种渠道,第一种是业务本身的数据,第二种是网上公开、抓取的数据;因此,从不同的领域获得的数据结构差异大,基于数据结构性可将其主要分为结构化数据、半结构化数据和非结构化数据,其中结构性数据和半结构性数据可以直接利用,而非结构化数据无法直接利用;因此如何将非结构化数据的信息提取出来进行利用则是质资料知识图谱构建的第一个难题;
[0005](2)相关信息抽取难度大:信息抽取的难点在于处理非结构化数据,非结构化数据抽取主要为文本信息抽取,主要包括实体识别、关系抽取、概念抽取、事件抽取等;同时信息抽取可分为面向特定领域的信息抽取和面向开放领域的信息抽取;如何将实体之间的关系提取则是质资料知识图谱构建的另一难题。

技术实现思路

[0006]本专利技术的目的在于:为了解决上述技术问题,弥补现有语料库的不足,需要对馆藏成果地质领域语料库进行设计;基于此,本专利技术提供一种地质知识图谱构建方法、装置、电子设备及存储介质,其主要着眼于成果地质矿产领域数据集的构建、命名实体识别、关系抽取技术这些方向,从而会提升构建馆藏成果地质领域的数据集的构建,促进馆藏成果地质矿产领域知识图谱的构建。本专利技术从上述两个问题产生的根本原因:目前还没有对馆藏成果地质矿产领域以及其相关领域的公开语料库,进行着手。
[0007]本专利技术通过采用自然语言处理技术对文本进行实体抽取、关系抽取和属性内容抽取,来梳理地质资料基本的实体类型、实体关系和实体属性。同时在Neo4j图数据库的环境下,将数据以图谱的方式组织起来。因此,本专利技术通过对馆藏成果地质资料多元异构数据的
整理来构建地质领域语料库,并从馆藏成果地质资料中的非结构化的文本中提取出实体和关系来构建成果地质领域知识图谱,从而能更为方便馆用户的查询和借阅,实现跨地区、跨层级的信息共享、业务协同和多级联动,以满足到馆用户或者互联网有资质用户获取更有价值的信息。
[0008]本专利技术为了实现上述目的,本专利技术公开了一下内容:
[0009]第一方面,本专利技术公开了一种地质知识图谱构建方法,包括:
[0010]S1、模型建立:通过深度学习神经网络模型训练出用于将获取的数据中的地质相关的实体信息提取出的地质实体信息提取模型;通过深度学习神经网络模型训练出用于将获取的数据中的地质相关的实体关系信息提取出的地质实体关系信息提取模型;
[0011]S2、实体信息结构化:地质实体信息提取模型将获取到的数据信息进行实体信息提取,得到地质信息的结构化数据;
[0012]S3、实体关系信息结构化:地质实体关系信息提取模型将获取到的数据信息进行实体关系信息提取,得到地质实体关系信息的结构化数据;
[0013]S4、知识图谱构建:将上述模型提取得到的数据存储并构建地质知识图谱。
[0014]进一步地,所述地质相关的实体信息包括以下信息的一种或多种:矿产类型、行政区、地层、金属元素、方位、组织机构。
[0015]进一步地,所述地质相关的实体关系信息包括以下信息的一种或多种:空间关系、语义关系、时间关系。
[0016]进一步地,所述S4中,模型提取得到的数据以Cypher语言存储在Neo4j数据库中,并根据Neo4j数据库中存储的数据构建地质知识图谱。
[0017]进一步地,根据构建的地质知识图谱构建三维知识图谱。
[0018]进一步地,所述S1中模型训练步骤包括如下内容:
[0019]a、构建地质矿产领域语料库;
[0020]b、将获取的数据中的与地质实体信息和地质关系信息相关的特征数据按照语料库的内容进行标注;
[0021]c、将标注好的数据输入BERT+LSTM+CRF组成的网络模型中进行训练,得到地质实体信息提取模型;
[0022]d、将标注好的数据进行三元组标注后输入BERT网络模型中进行训练,得到地质实体关系信息提取模型。
[0023]进一步地,所述语料库中的实体采用BIO格式进行标注,关系信息采用三元组的标注方法。
[0024]第二方面,本专利技术公开了一种地质知识图谱构建装置,包括:
[0025]实体模型获取模块:用于获取训练好的地质实体信息提取模型;
[0026]实体关系模型获取模块:用于获取训练好的地质实体关系信息提取模型;
[0027]数据输入模块:用于将获取的数据分别输入到实体模型获取模块和实体关系模型获取模块;
[0028]数据存储模块:用于将实体模型获取模块和实体关系模型获取模块输出的数据存储;
[0029]知识图谱构建模块:用于根据实体模型获取模块和实体关系模型获取模块输出的
数据建立知识图谱构建模块。
[0030]第三方面,本专利技术公开了一种电子设备,包括一个或多个处理器以及用于存储一个以上程序的存储装置,当所述程序被所述处理器执行,使得所述处理器实现上述中任一项所述的地质知识图谱构建方法。
[0031]第四方面,本专利技术公开了一种存储介质,所述存储介质为存储有计算机程序的计算机可读存储介质,所述计算机程序包括程序指令,该程序指令被处理器执行时实现上述中任一项所述的地质知识图谱构建方法。
[0032]本专利技术的有益效果如下:
[0033]本专利技术先对地质相关的数据进行标记,以获得实体标注以及实体关系标注的数据,然后将上述数据分别输入BERT+LSTM+CRF组成的网络模型和BERT模型进行训练,分别得到质实体信息提取模型和地质实体关系信息提取模型;然后对需要处理的数据,例如非结构性数据,将其输入上述两个模型,即可通过模型来采用自然语言处理技术对数据进行实体抽取和关系抽取,即分别得到地质信息的结构化数据和地质实体关系信息的结构化数据;然后将得到的数据在Neo4j图数据库的环境下,将数据以图谱的方式组织起来,即可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地质知识图谱构建方法,其特征在于,包括:S1、模型建立:通过深度学习神经网络模型训练出用于将获取的数据中的地质相关的实体信息提取出的地质实体信息提取模型;通过深度学习神经网络模型训练出用于将获取的数据中的地质相关的实体关系信息提取出的地质实体关系信息提取模型;S2、实体信息结构化:地质实体信息提取模型将获取到的数据信息进行实体信息提取,得到地质信息的结构化数据;S3、实体关系信息结构化:地质实体关系信息提取模型将获取到的数据信息进行实体关系信息提取,得到地质实体关系信息的结构化数据;S4、知识图谱构建:将上述模型提取得到的数据存储并构建地质知识图谱。2.根据权利要求1所述的一种地质知识图谱构建方法,其特征在于,所述地质相关的实体信息包括以下信息的一种或多种:矿产类型、行政区、地层、金属元素、方位、组织机构。3.根据权利要求1所述的一种地质知识图谱构建方法,其特征在于,所述地质相关的实体关系信息包括以下信息的一种或多种:空间关系、语义关系、时间关系。4.根据权利要求1所述的一种地质知识图谱构建方法,其特征在于,所述S4中,模型提取得到的数据以Cypher语言存储在Neo4j数据库中,并根据Neo4j数据库中存储的数据构建地质知识图谱。5.根据权利要求4所述的一种地质知识图谱构建方法,其特征在于,根据构建的地质知识图谱构建三维知识图谱。6.根据权利要求1~5中任一项所述的一种地质知识图谱构建方法,其特征在于,所述S1中模型训练步骤包括如下内容:...

【专利技术属性】
技术研发人员:黄进王晴杨涛刘鑫李剑波
申请(专利权)人:西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1