大坝应急响应知识库联动的多视角学习实体对齐方法和系统技术方案

技术编号:37322767 阅读:8 留言:0更新日期:2023-04-21 23:02
本发明专利技术公开一种大坝应急响应知识库联动的多视角学习实体对齐方法和系统,包括:大坝应急响应知识库的知识图谱构建,针对大坝应急响应文件进行知识抽取的操作,构建大坝应急响应知识图谱;提出基于BERT嵌入的多视角学习实体对齐方法,融入非结构化文本描述特征改善实体编码,将实体文本描述与实体结构及属性相结合,对实体进行充分表示;同时,以将共享注意力权重作用于属性类型嵌入与属性值嵌入,防止噪声属性造成结果偏差;通过上述对齐方法对大坝应急响应知识库的知识图谱进行实体对齐操作,实现应急发生时的大坝应急响应知识库联动。实现应急发生时的大坝应急响应知识库联动。实现应急发生时的大坝应急响应知识库联动。

【技术实现步骤摘要】
大坝应急响应知识库联动的多视角学习实体对齐方法和系统


[0001]本专利技术涉及一种大坝应急响应知识库联动的多视角学习实体对齐方法和系统,属于文本数据处理


技术介绍

[0002]互联网的迅速发展带来数据的爆炸式增长,如何将信息结构化以便更快速精确的检索信息亟待解决,由此,知识图谱(Knowledge Graph,KG)的概念应运而生。知识图谱提出的初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验,其本质是一种大规模的语义网络(Semantic Network),结构化的语义知识库(Knowledge Base,KB),形式化的描述物理世界中的概念及其相互关系。随着相关技术的不断发展,知识图谱已经广泛应用于智能搜索、智能问答、个性化推荐等领域。
[0003]如今知识图谱技术已经被逐渐运用于社会的各个领域。其中,在大坝安全应急工况风险联动领域,知识图谱技术被广泛运用于大坝安全的知识库构建以及应急响应系统的风险联动当中。目前大坝安全的知识库构建工作硕果累累,但是这些构建的知识图谱大多是分散而独立的,当前的大坝安全知识图谱中存在着图谱中的多个实体指向客观世界的相同事物的问题,各个知识图谱之间存在大量重复的知识,同时实体对齐方法对监督数据依赖性较强,且知识图谱构建时由于侧重点不同从而知识图谱出现稀疏或不完整的情况,导致实体对齐任务效果不佳,从而影响知识图谱之间联动的准确性,这些问题都阻碍了大坝安全数据的有效集成与复用,因此提高实体对齐效果,从而提高在大坝发生应急工况时安全知识库的风险联动的准确性是当务之急。
[0004]已有实体对齐方法存在数据特征利用不充分,在知识图谱稀疏或属性信息稀少的情况下对齐准确率较低,对实体语义捕获不充分等问题。在关系稀疏且属性信息较少的情况下,仅通过关系三元组和属性三元组较难判断对齐,同时实体名称略有区别,但是两者的文本描述部分具有很大的相似性,很容易出现相同的实体或者具有类似结构的表述内容。

技术实现思路

[0005]专利技术目的:针对现有技术中存在的问题,本专利技术提供一种大坝应急响应知识库联动的多视角学习实体对齐方法和系统,对知识图谱进行了基于BERT模型(一种预训练的语言表征模型)的多视角学习实体对齐(entity alignment)工作。将存在于不同的大坝安全知识图谱中,但指向客观世界中同一物体的名称对应起来,并得到它们之间评估相似性程度的置信度。该任务可以对大坝安全知识图谱进行扩充,从而提高大坝安全知识图谱的质量和覆盖范围,从而在大坝发生应急工况下,提高风险联动的准确性,使得有关部门做出更有效的决策。
[0006]本专利技术提出大坝应急响应知识库联动的多视角学习实体对齐方法,该方法通过融合实体文本描述特征,解决知识图谱稀疏时仅依赖关系和属性进行对齐的准确率低以及数据特征利用不充分的问题;通过使用预训练的BERT模型对属性及文本描述特征进行嵌入,
解决使用字符级别属性嵌入时语义捕获不充分的问题。同时,在属性嵌入部分考虑到并非所有的属性对实体对齐的贡献都一样,可能存在许多无用的噪声属性,因此为了学习到不同属性的重要程度,以共享注意力权重的形式作用于属性类型嵌入与属性值嵌入。解决在知识图谱稀疏的情况下,三元组信息缺少时实体对齐概率较低的问题。
[0007]技术方案:一种大坝应急响应知识库联动的多视角学习实体对齐方法,利用大坝应急响应文件数据,进行知识抽取构建三元组的操作,利用Neo4j构建大坝应急响应知识库的知识图谱;将实体的结构特征和实体的属性及文本描述特征表示为嵌入的特征向量;将上述向量进行拼接实现联合语义表示;将需要实体对齐的两个实体的联合语义表示向量输入孪生神经网络计算实体相似度,来实现实体对齐;实体对齐方法嵌入大坝应急响应知识库系统中进行实体对齐操作。
[0008]方法包括如下内容:
[0009](1)大坝应急响应知识库的知识图谱构建:利用大坝安全的风险工况应急响应文件数据,对文件数据中的知识进行知识抽取操作,得到构建知识图谱所需的三元组,利用抽取所得三元组构建大坝应急响应知识库的知识图谱。
[0010](2)实体的特征嵌入:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分。其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示。
[0011](3)实体的语义联合表示:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中。
[0012](4)基于孪生神经网络的实体对齐匹配方法:将得到的实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐,通过以上基于孪生神经网络的实体对齐匹配方法构建多视角学习实体对齐模型。
[0013]将实体对齐方法嵌入大坝应急响应知识库系统并运行于计算机设备上,针对大坝应急响应知识库中的图谱进行实体对齐操作,从而实现应急工况发生时,知识库之间的联动,提高风险联动的准确性,从而提高应急措施的实施效率。
[0014]进一步的,所述(1)大坝应急响应知识库的知识图谱构建,具体步骤如下:
[0015](1.1)从大坝安全知识库中,取大坝应急响应文本数据,从大坝应急响应文本数据中提取信息三元组,得到三元组集合。
[0016](1.2)利用图数据库Neo4j在构建好的三元组集合的基础上,构建大坝应急响应知识库的知识图谱,所得知识图谱中的实体用于下文方法中知识库联动的实体对齐操作。
[0017]进一步的,所述步骤(2)中实体的特征嵌入,将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分。具体步骤如下:
[0018](2.1)实体结构特征嵌入:基于TransE模型进行嵌入,对于TransE模型中生成反例的随机采样法,使用截断式反例三元组生成方式。
[0019]给定一个关系三元组(h,r,t),TransE将头实体h、尾实体t和关系r都嵌入到统一的低维向量空间中,使得实体和关系满足约束:h+r≈t,即r是头尾实体之间的翻译关系。为了在学习中实现这一假设,通过不断调整h、r,使得h+r尽可能与t相等,定义打分函数为:f
r
(h,t)=

||h+r

t||
1/2

[0020]其中,使用||
·
||
1/2
代表在该打分函数中使用l1范数或l2范数皆可。在(4)中基于孪生神经网络的多视角学习实体对齐模型训练过程中,TransE采用最大间隔方法,最小化目标函数,目标函数如下:
[0021][0022]其中,(h,r,t)∈S是知识库中的正例三元组,即知识图谱中真实存在的三元组。(h

,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,包括如下内容:(1)大坝应急响应知识库的知识图谱构建:利用大坝安全的风险工况应急响应文件数据,对文件数据中的知识进行知识抽取操作,得到构建知识图谱所需的三元组,利用抽取所得三元组构建大坝应急响应知识库的知识图谱;(2)实体的特征嵌入:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分;其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示;(3)实体的语义联合表示:基于对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中;(4)基于孪生神经网络的实体对齐匹配方法:将得到的实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐。2.根据权利要求1所述的大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,将实体对齐方法嵌入大坝应急响应知识库系统并运行于计算机设备上,针对大坝应急响应知识库中的图谱进行实体对齐操作。3.根据权利要求1所述的大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,所述(1)大坝应急响应知识库的知识图谱构建,具体步骤如下:(1.1)从大坝应急响应知识库中,取大坝应急响应文本数据,从大坝应急响应文本数据中利用常用实体抽取方法抽取构建知识图谱所需三元组,得到三元组集合(1.2)利用所得三元组,在图数据库Neo4j中构建大坝应急响应知识库的知识图谱。4.根据权利要求1所述的大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,所述步骤(2)中实体的特征嵌入,将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分;具体步骤如下:(2.1)实体结构特征嵌入:基于TransE模型进行嵌入,对于TransE模型中生成反例的随机采样法,使用截断式反例三元组生成方式;(2.2)属性特征及文本描述特征嵌入:首先利用预训练的BERT接受相应的文本信息作为输入,取分类标签的对应值,然后使用MLP进行映射,将得到的结果作为该实体的向量表示。5.根据权利要求1所述的大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,所述步骤(3)中实体的语义联合表示...

【专利技术属性】
技术研发人员:毛莺池薛扬帆李志兴汪强杜建民张宁权蒋金磊张浩江万旭王龙宝苏健孟欢段云超刘晋曦梁国峰魏子钧
申请(专利权)人:华能澜沧江水电股份有限公司华能集团技术创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1