面向大坝安全知识库风险联动的实体对齐方法和系统技术方案

技术编号:36941185 阅读:22 留言:0更新日期:2023-03-22 19:02
本发明专利技术公开一种面向大坝安全知识库风险联动的实体对齐方法和系统,包括:大坝安全知识库中的知识图谱信息提取,针对大坝安全知识图谱进行知识抽取的操作,构造下述两个模型组件的基本大坝安全训练数据集;基于结构特征的对齐模型,使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离得到对齐结果;基于属性特征的对齐模型,通过使用预训练BERT模型进行知识的属性特征嵌入,解决属性特征语义捕获不充分的问题;迭代协同训练,解决缺少监督数据的问题,交替利用结构和属性信息进行实体对齐,达到对训练数据集的迭代拓展;对齐模型预测,通过上述对齐模型对大坝安全知识库进行实体对齐操作,实现应急工况下的大坝安全知识库风险联动。安全知识库风险联动。安全知识库风险联动。

【技术实现步骤摘要】
面向大坝安全知识库风险联动的实体对齐方法和系统


[0001]本专利技术涉及一种基于协同训练的面向大坝安全知识库风险联动的实体对齐方法和系统,属于自然语言处理


技术介绍

[0002]互联网的迅速发展带来数据的爆炸式增长,如何将信息结构化以便更快速精确的检索信息亟待解决,由此,知识图谱(Knowledge Graph,KG)的概念应运而生。知识图谱提出的初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验,其本质是一种大规模的语义网络(Semantic Network),结构化的语义知识库(Knowledge Base,KB),形式化的描述物理世界中的概念及其相互关系。随着相关技术的不断发展,知识图谱已经广泛应用于智能搜索、智能问答、个性化推荐等领域。
[0003]如今知识图谱技术已经被逐渐运用于社会的各个领域。其中,在大坝安全领域,知识图谱技术被广泛运用于大坝安全的知识库构建以及应急响应系统的风险联动当中。目前大坝安全的知识库构建工作硕果累累,但是这些构建的知识图谱大多是分散而独立的,当前的大坝安全知识图谱中存在着图谱中的多个实体指向客观世界的相同事物的问题,各个知识图谱之间存在大量重复的知识,同时实体对齐方法对监督数据依赖性较强,且知识图谱构建时由于侧重点不同从而知识图谱出现稀疏或不完整的情况,导致实体对齐任务效果不佳,从而影响知识图谱之间联动的准确性,这些问题都阻碍了大坝安全数据的有效集成与复用,因此提高实体对齐效果,从而提高在大坝发生应急工况时安全知识库的风险联动的准确性是当务之急。
>
技术实现思路

[0004]专利技术目的:针对现有技术中存在的难题,本专利技术提供一种基于协同训练的面向大坝安全知识库风险联动的实体对齐方法和系统,对知识图谱进行了基于协同训练的实体对齐(entity alignment)工作。将存在于不同的大坝安全知识图谱中,但指向客观世界中同一物体的名称对应起来,并得到它们之间评估相似性程度的置信度。该任务可以对大坝安全知识图谱进行扩充,从而提高大坝安全知识图谱的质量和覆盖范围,从而在大坝发生应急工况下,提高风险联动的准确性,使得有关部门做出更有效的决策。
[0005]技术方案:一种基于协同训练的大坝安全知识库风险联动的实体对齐方法,针对具有结构信息和属性信息的两张大坝安全知识图谱进行知识抽取的操作,并分别构造两个模型组件的基本大坝安全训练数据集,使用一种结构对齐模型:根据不同知识图谱的关系三元组,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离得到对齐结果;使用一种属性对齐模型:通过使用预训练的BERT模型对属性特征进行嵌入,解决与大坝安全知识相关的属性特征语义捕获不充分的问题;通过协同训练框架解决缺少监督数据的问题,交替利用结构信息和属性信息对实体进行对齐,并将新得到的对齐结果加入大坝安全训练数据集达到对训练数据集的迭代拓展,进而提高实体对齐的效果。
[0006]方法包括如下内容:
[0007](1)大坝安全知识图谱信息提取:在建立好大坝安全知识库的基础上,对大坝安全知识图谱进行知识抽取的操作,得到结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,并利用种子对齐分别构造基于结构特征的对齐模型和基于属性特征的对齐模型的基本大坝安全训练数据集,其中种子含义是指出现在不同知识图谱中的同义实体,即预先对齐的实体。
[0008]所述属性视角的实体嵌入三元组包含实体内部的语义信息,所属结构视角的实体嵌入关系三元组包含实体外部的语义信息。
[0009](2)基于结构特征的对齐模型:使用GCN对上述结构视角的实体嵌入关系三元组进行编码并对齐,首先根据不同知识图谱的关系三元组及种子对齐构建结构图,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离,从而判断实体间的相似度。
[0010](3)基于属性特征的对齐模型:使用BERT对上述属性视角的实体嵌入三元组进行编码并对齐,将实体对齐作为下游目标来调整一个预先训练的BERT模型,将属性类型和属性值分别使用预训练的BERT进行嵌入,对属性值和属性类型进行交互并传入多层感知机MLP得到实体对的相似度。
[0011](4)迭代协同训练:首先基于少量的“种子对齐”,对两个视角的对齐模型——基于结构特征的对齐模型和基于属性特征的对齐模型进行训练,并对未标记的实体进行对齐预测。然后从每次预测得到的结果中选出可信的对齐结果,并将其加入已标记的大坝安全训练数据集中,得到新的训练数据集,之后使用新的训练数据再次训练对齐模型。基于此,不断迭代交替的训练两个视角的对齐模型,逐渐加强实体对齐,直到两个视角的对齐模型都不再预测新的对齐实体对。通过对大坝安全训练数据集的迭代拓展,交替利用结构信息和属性信息对实体进行对齐,使两种信息达到相辅相成的作用,进而提高实体对齐的效果。
[0012]迭代协同训练是通过协同训练框架解决缺少监督数据的问题,交替利用结构信息和属性信息对实体进行对齐,并将新得到的对齐结果加入大坝安全训练数据集达到对训练数据集的迭代拓展,进而提高实体对齐的效果。本专利技术利用一种基于协同训练的实体对齐模型,针对现有的实体对齐方法对监督数据依赖性较强的问题,在训练数据缺失的情况下发挥作用,并提升大坝安全知识库的知识图谱实体对齐效果。
[0013](5)将本专利技术的实体对齐方法嵌入大坝安全知识库系统并运行于计算机设备上,针对大坝的知识库实现实体对齐,提高在应急工况发生的情况下,风险联动寻找对应的处置决策的准确性。
[0014]进一步的,所述(1)大坝安全知识图谱信息提取中,给定两个具有结构信息和属性信息的知识图谱G1、G2,以及“种子对齐”L(m),构造基本大坝安全训练数据集,大坝安全训练数据集包括结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,具体步骤如下:
[0015](1.1)从大坝安全知识库中,取大坝应急响应文本,从大坝应急响应文本中提取信息三元组,样例如下:
[0016]大坝数据集文本描述案例
[0017][0018]利用大坝应急响应文本提取三元组后,构建大坝安全知识图谱。将一个大坝安全知识图谱表示为G=(E,R,A,V,T),由实体集合E,关系谓词集合R,属性谓词集合A,属性值集合V以及三元组集合T组成,其中T=T
r
∪T
a
,T
r
和T
a
分别表示实体嵌入关系三元组的集合和实体嵌入三元组的集合;
[0019](1.2)给定两个大坝安全知识图谱G1=(E1,R1,A1,V1,T1)和G2=(E2,R2,A2,V2,T2),分别使用GCN模型和BERT模型对T
r
和T
a
进行编码并训练,将已找到的对齐实体对作为训练数据的“种子对齐”。最终得到的数据集形式为三元组的集合,形式例如:(渗流,位置,混凝土接缝)。
[0020]进一步的,所述步骤(2)中基于结构特征的对齐模型,利用两层GCN在结构图上对实体进行编码本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于协同训练的大坝安全知识库风险联动的实体对齐方法,其特征在于,包括如下内容:(1)大坝安全知识图谱信息提取:在建立好大坝安全知识库的基础上,对大坝安全知识图谱进行知识抽取的操作,得到结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,并利用种子对齐分别构造基于结构特征的对齐模型和基于属性特征的对齐模型的基本大坝安全训练数据集;(2)基于结构特征的对齐模型:使用GCN对上述结构视角的实体嵌入关系三元组进行编码并对齐,首先根据不同知识图谱的关系三元组及种子对齐构建结构图,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离,从而判断实体间的相似度;(3)基于属性特征的对齐模型:使用BERT对上述属性视角的实体嵌入三元组进行编码并对齐,将实体对齐作为下游目标来调整一个预先训练的BERT模型,将属性类型和属性值分别使用预训练的BERT进行嵌入,对属性值和属性类型进行交互并传入多层感知机MLP得到实体对的相似度;(4)迭代协同训练:首先基于“种子对齐”,对两个视角的对齐模型——基于结构特征的对齐模型和基于属性特征的对齐模型进行训练,并对未标记的实体进行对齐预测;然后从每次预测得到的结果中选出可信的对齐结果,并将其加入已标记的大坝安全训练数据集中,得到新的训练数据集,之后使用新的训练数据再次训练对齐模型;不断迭代交替的训练两个视角的对齐模型,直到两个视角的对齐模型都不再预测新的对齐实体对。(5)将实体对齐方法嵌入大坝安全知识库系统并运行于计算机设备上,针对大坝的知识库实现实体对齐。2.根据权利要求1所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法,其特征在于,所述(1)大坝安全知识图谱信息提取中,给定两个具有结构信息和属性信息的知识图谱G1、G2,以及“种子对齐”L(m),构造基本大坝安全训练数据集,大坝安全训练数据集包括结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,具体步骤如下:(1.1)从大坝安全知识库中,取大坝应急响应文本,从大坝应急响应文本中提取信息三元组;利用大坝应急响应文本提取三元组后,构建大坝安全知识图谱;将一个大坝安全知识图谱表示为G=(E,R,A,V,T),由实体集合E,关系谓词集合R,属性谓词集合A,属性值集合V以及三元组集合T组成,其中T=T
r
∪T
a
,T
r
和T
a
分别表示实体嵌入关系三元组的集合和实体嵌入三元组的集合;(1.2)给定两个大坝安全知识图谱G1=(E1,R1,A1,V1,T1)和G2=(E2,R2,A2,V2,T2),分别使用GCN模型和BERT模型对T
r
和T
a
进行编码并训练,将已找到的对齐实体对作为训练数据的“种子对齐”;最终得到的数据集形式为三元组的集合。3.根据权利要求1所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法,其特征在于,所述步骤(2)中基于结构特征的对齐模型,利用两层GCN在结构图上对实体进行编码,来计算实体向量之间的距离,从而判断实体间的相似度的具体步骤如下:(2.1)根据不同知识图谱的结构视角的实体嵌入关系三元组及“种子对齐”,以实体为节点,以关系为边为不同的大坝安全知识图谱构建结构图;(2.2)使用两层GCN在结构图上对实体进行编码;(2.3)实体对齐过程中,通过双层GCN模型学习实体的结构特征向量,并计算该特征向
量与另一知识图谱中的每个实体的结构特征向量之间的距离,对距离进行从小到大排序,选择距离最小的结果作为下一次迭代的新对齐实体。4.根据权利要求1所述的...

【专利技术属性】
技术研发人员:李志兴杜建民蒋金磊毛莺池张浩江薛扬帆苏健孟欢王远聂兵兵曹林戚荣志杨崇香王珊珊魏子钧
申请(专利权)人:河海大学华能集团技术创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1