矿区地理实体关联网络构建方法及设备技术

技术编号:35100850 阅读:11 留言:0更新日期:2022-10-01 17:07
本发明专利技术提供了一种矿区地理实体关联网络构建方法及设备。所述方法包括:步骤1至步骤3。本发明专利技术从非结构化矿产资料文本中抽取出结构化的实体属性信息,为矿区地理实体关联网络的构建提供数据基础,有效提高历史资料文本的挖掘程度与利用价值;形成矿区地理实体关联网络,能够有效支撑知识检索、知识问答等下游应用,为提升矿产资源领域信息与知识的社会化服务能力提供有效途径。务能力提供有效途径。务能力提供有效途径。

【技术实现步骤摘要】
矿区地理实体关联网络构建方法及设备


[0001]本专利技术实施例涉及信息管理
,尤其涉及一种矿区地理实体关联网络构建方法及设备。

技术介绍

[0002]实体关联网络是一个结构化、关联化的知识表示形式,通过清晰直观的图结构来表达客观世界中的事物及其关联关系,为领域知识组织与管理提供了新的思路。因此,基于实体关联网络自动获取并关联整合矿产领域的信息与知识,成为相关科研机构和政府部门所共同关注的课题。然而,矿产领域积累了比较多的成果资料文本数据,存在数量规模大、概念模式复杂、文本信息挖掘不足、数据关联程度低等问题,给矿产资源领域地理实体关联网络的构建带来诸多挑战。这些挑战主要集中在两方面:一是如何有效组织、表达与关联各类复杂的矿区矿产信息;二是如何从非结构化领域文本资料中抽取出矿产资源相关的实体属性信息。因此,开发一种矿区地理实体关联网络构建方法及设备,可以有效面对上述相关技术中的挑战,就成为业界亟待解决的技术问题。

技术实现思路

[0003]针对现有技术存在的上述问题,本专利技术实施例提供了一种矿区地理实体关联网络构建方法及设备。
[0004]第一方面,本专利技术的实施例提供了一种矿区地理实体关联网络构建方法,包括:步骤1、从地理实体的特征表达与地理实体的关系表达两个层面建立面向矿产领域的矿区矿产资源地理实体表达框架;步骤2、基于互联网获取矿产资源资料文本数据,进行数据预处理和标注,获得标注数据集,利用标注数据集,对改进的BiLSTM

CRF模型进行训练,得到矿区实体识别模型,并基于矿区实体识别模型对未标注矿产资源资料文本中的实体要素进行识别和抽取;步骤3、基于Neo4j图形数据库,依据步骤1中的地理实体的特征表达对步骤2中抽取得到的实体信息进行存储,依据步骤1中的地理实体的关系表达分别构建矿区地理实体之间的空间、资源、项目和地质关联,形成矿区地理实体关联网络。
[0005]在上述方法实施例内容的基础上,本专利技术实施例中提供的矿区地理实体关联网络构建方法,所述特征表达包括:语义特征、空间特征、资源特征、项目特征、地质特征五个维度。
[0006]在上述方法实施例内容的基础上,本专利技术实施例中提供的矿区地理实体关联网络构建方法,所述关联关系包括:空间关联、资源关联、项目关联、地质关联四个方面。
[0007]在上述方法实施例内容的基础上,本专利技术实施例中提供的矿区地理实体关联网络构建方法,步骤1中,建立面向矿产领域的矿区矿产资源地理实体表达框架,具体包括:建立地理实体特征表达体系,定义语义特征由矿区名称OreName,矿区标识码OreID,矿区类型OreType和矿区类型码OreTypeID组成;定义空间特征由行政区划名称RegName、空间等级SpaLev、具体地域SpeReg、行政区划代码RegCode和为地理经纬度LonLat组成;定义资源特
征由矿种名称MineSpeName,矿种类型MineSpeType,矿种储量规模MineSpeSca,矿种品位MineSpeQua组成;定义项目特征由项目名称ProName、形成单位FormUnit、工作程度WorkDegree,项目建设的开始和结束时间StaEndTime组成;定义地质特征由矿体特征OreBodyFea、矿石特征OreFea、成因类型GenType、其他地质特征OthFea组成;建立地理实体关系表达体系,定义空间关联关系依据拓扑层级关系和方位相对位置建立,关系类型包括隶属、位于,参考知识为行政区划层级集合;定义资源关联关系依据矿产资源类型中的上下位关系建立,关系类型包括包含、矿种属于,参考知识为矿种类型划分集合;定义项目关联关系依据项目形成单位、工作程度的一致性建立,关系类型包括形成单位属于、工作程度属于,参考知识为工作程度集合、形成单位集合;定义地质关联关系构成特点、成分特点、成因类型的一致性建立,关系类型包括矿体数量一致、成分类型属于和成因属于。
[0008]在上述方法实施例内容的基础上,本专利技术实施例中提供的矿区地理实体关联网络构建方法,步骤2中,利用标注数据集,对改进的BiLSTM

CRF模型进行训练,得到矿区实体识别模型,具体包括:基于爬虫技术获取互联网地质信息平台上的公开数据,定义无关文档的关键词列表,进行数据预处理,删除与矿区矿产描述无关及不符合要求的数据;选用部分原始数据,采用BMEO的序列标注方式对数据进行标注,并对标注数据集的质量进行检查,得到矿产资源领域的实体标注数据集;在BiLSTM

CRF模型的输入层进行向量优化;将标注好的标注数据集按照6:2:2的比例来进行划分,分别作为训练集、验证集和测试集,保存训练和调整好的改进BiLSTM

CRF模型,得到矿区矿产实体识别模型。
[0009]在上述方法实施例内容的基础上,本专利技术实施例中提供的矿区地理实体关联网络构建方法,所述在BiLSTM

CRF模型的输入层进行向量优化,包括:模型融合矿产资源领域专有词典,使用分词工具对矿区矿产资源文本语料进行分词,对于矿区矿产资源文本语料,词典中存在的词会被完整划分出来,不存在的词使用常规的分词工具进行划分,划分后的词语利用word2vec进行词向量训练,得到词语级别的向量序列,将以前的字向量输入升级到词向量输入,利用更多的语义特征并提高信息密度。
[0010]在上述方法实施例内容的基础上,本专利技术实施例中提供的矿区地理实体关联网络构建方法,步骤3具体包括:选用Neo4j图数据库来进行存储矿区矿产知识,利用Cypher图查询语句和python语言,将步骤2中抽取得到的矿区地理实体的语义、空间、资源、项目、地质特征信息,自动化导入图数据库中进行存储;利用Cypher图查询语句和python语言,依据步骤1中的地理实体关系表达体系,分别构建矿区地理实体的空间、资源、项目和地质关联,具体实现方式为:引入不同层级的行政区划集合建立空间关联;引入矿区矿产资源概念层级集合建立资源关联;通过引入工作程度集合和形成单位取值集合建立项目关联;通过引入地质特征取值集合建立地质关联。
[0011]第二方面,本专利技术的实施例提供了一种矿区地理实体关联网络构建装置,包括:第一主模块,用于实现步骤1、从地理实体的特征表达与地理实体的关系表达两个层面建立面向矿产领域的矿区矿产资源地理实体表达框架;第二主模块,用于实现步骤2、基于互联网获取矿产资源资料文本数据,进行数据预处理和标注,获得标注数据集,利用标注数据集,对改进的BiLSTM

CRF模型进行训练,得到矿区实体识别模型,并基于矿区实体识别模型对未标注矿产资源资料文本中的实体要素进行识别和抽取;第三主模块,用于实现步骤3、基于Neo4j图形数据库,依据步骤1中的地理实体的特征表达对步骤2中抽取得到的实体信息
进行存储,依据步骤1中的地理实体的关系表达分别构建矿区地理实体之间的空间、资源、项目和地质关联,形成矿区地理实体关联网络。
[0012]第三方面,本专利技术的实施例提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种矿区地理实体关联网络构建方法,其特征在于,包括:步骤1、从地理实体的特征表达与地理实体的关系表达两个层面建立面向矿产领域的矿区矿产资源地理实体表达框架;步骤2、基于互联网获取矿产资源资料文本数据,进行数据预处理和标注,获得标注数据集,利用标注数据集,对改进的BiLSTM

CRF模型进行训练,得到矿区实体识别模型,并基于矿区实体识别模型对未标注矿产资源资料文本中的实体要素进行识别和抽取;步骤3、基于Neo4j图形数据库,依据步骤1中的地理实体的特征表达对步骤2中抽取得到的实体信息进行存储,依据步骤1中的地理实体的关系表达分别构建矿区地理实体之间的空间、资源、项目和地质关联,形成矿区地理实体关联网络。2.根据权利要求1所述的矿区地理实体关联网络构建方法,其特征在于,所述特征表达包括:语义特征、空间特征、资源特征、项目特征、地质特征五个维度。3.根据权利要求2所述的矿区地理实体关联网络构建方法,其特征在于,所述关联关系包括:空间关联、资源关联、项目关联、地质关联四个方面。4.根据权利要求3所述的矿区地理实体关联网络构建方法,其特征在于,步骤1中,建立面向矿产领域的矿区矿产资源地理实体表达框架,具体包括:建立地理实体特征表达体系,定义语义特征由矿区名称OreName,矿区标识码OreID,矿区类型OreType和矿区类型码OreTypeID组成;定义空间特征由行政区划名称RegName、空间等级SpaLev、具体地域SpeReg、行政区划代码RegCode和为地理经纬度LonLat组成;定义资源特征由矿种名称MineSpeName,矿种类型MineSpeType,矿种储量规模MineSpeSca,矿种品位MineSpeQua组成;定义项目特征由项目名称ProName、形成单位FormUnit、工作程度WorkDegree,项目建设的开始和结束时间StaEndTime组成;定义地质特征由矿体特征OreBodyFea、矿石特征OreFea、成因类型GenType、其他地质特征OthFea组成;建立地理实体关系表达体系,定义空间关联关系依据拓扑层级关系和方位相对位置建立,关系类型包括隶属、位于,参考知识为行政区划层级集合;定义资源关联关系依据矿产资源类型中的上下位关系建立,关系类型包括包含、矿种属于,参考知识为矿种类型划分集合;定义项目关联关系依据项目形成单位、工作程度的一致性建立,关系类型包括形成单位属于、工作程度属于,参考知识为工作程度集合、形成单位集合;定义地质关联关系构成特点、成分特点、成因类型的一致性建立,关系类型包括矿体数量一致、成分类型属于和成因属于。5.根据权利要求4所述的矿区地理实体关联网络构建方法,其特征在于,步骤2中,利用标注数据集,对改进的BiLSTM

CRF模型进行训练,得到矿区实体识别模型,具体包括:基于爬虫技术获取互联网地质信息平台上的公开数据,定义无关文档的关键词列表,进行数据预处理,删除与矿区矿产描述无关及不符合要求的数据;选用部分原始数据...

【专利技术属性】
技术研发人员:李江李锐李强郑丽娜李芳芳凌朝阳
申请(专利权)人:湖北省自然资源厅信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1