基于深度学习算法的电力设备三元组构建方法技术

技术编号:32134763 阅读:11 留言:0更新日期:2022-01-29 19:41
本发明专利技术涉及人工智能领域。公开了一种基于深度学习算法的电力设备三元组构建方法,本发明专利技术提出的基于深度学习算法的电力设备三元组构建方法,提供了一种更加完善的电力设备知识图谱三元组抽取方案,即以自顶向下的构建方式构建模式层,并在所述模式层的指导下,采用自底向上的方式构建数据层;本方案清晰体现了电力设备文本的特点,能够完善电力设备三元组的设计方案,进而提高电力设备三元组的提取效率和准确率;本发明专利技术还提出了一种包括双向循环网络、膨胀门卷积神经网络和自注意力模型的实体关系抽取模型;该模型基于自底向上构建的数据层构建,采用概率图的思想来抽取电力设备三元组,进一步提高了电力设备三元组抽取的效率和准确率。准确率。准确率。

【技术实现步骤摘要】
基于深度学习算法的电力设备三元组构建方法


[0001]本专利技术涉及人工智能
,具体涉及基于深度学习算法的电力设备三元组构建方法。

技术介绍

[0002]知识图谱是一种知识表示方法,在本质上是一个结构化语义知识库,它以三元组(即头实体h,关系r和尾实体t)的形式对客观世界中的实体及其相互关系进行建模,这些三元组通过共有的实体或属性相互连接,构成网状的知识结构。
[0003]相较于传统的知识组织、管理方式,知识图谱三元组基于图的数据组织结构支持更高效的数据调取,能够处理复杂多样的关联表示,能够模拟人类思考过程进行语义分析。
[0004]在电力设备知识图谱
,构建电力设备的知识图谱三元组,为电力设备的智能运维奠定了基础;对于特定领域的专业知识图谱的构建,其难点之一在于知识数据的获取。例如在电力设备专业领域中,结构化和半结构化的专业知识来源较少,导致目前没有一个完善的方案来抽取电力设备知识图谱三元组。

技术实现思路

[0005]本专利技术的主要目的是提供一种基于深度学习算法的电力设备三元组构建方法,旨在解决目前没有一个完善的方案来抽取电力设备知识图谱三元组的问题。
[0006]本专利技术提出的技术方案为:
[0007]一种基于深度学习算法的电力设备三元组构建方法,包括:
[0008]基于数据流编程构建的三元组提取模型:以自顶向下的构建方式构建模式层,并在所述模式层的指导下,采用自底向上的方式构建数据层,其中,所述模式层是知识抽取的知识组织架构,是对实体、实体间关系以及属性进行描述的数据模型,所述数据层包括命名实体抽取模型和实体关系抽取模型;
[0009]利用所述命名实体抽取模型对待抽取文本进行电力设备命名实体识别,以实现电力设备命名实体抽取,并进行标注以得到标注实体;
[0010]基于所述标注实体,通过所述实体关系抽取模型对所述待抽取文本进行电力设备实体关系抽取,以提取电力设备三元组,其中,所述实体关系抽取模型包括双向循环网络、膨胀门卷积神经网络和自注意力模型。
[0011]优选的,所述基于所述标注实体,通过所述实体关系抽取模型对所述待抽取文本进行电力设备实体关系抽取,以提取电力设备三元组,包括:
[0012]将所述命名实体抽取模型标注的实体作为所述实体关系抽取模型的一个输入,以得到第一结果,将待抽取文本重新训练得到的特征向量作为所述实体关系抽取模型另一个输入,以得到第二结果,将所述第一结果和所述第二结果拼接,并传入卷积神经网络,以提取到电力设备三元组。
[0013]优选的,所述通过所述命名实体抽取模型对待抽取文本进行电力设备命名实体识
别,以实现电力设备命名实体抽取,并进行标注以得到标注实体,包括:
[0014]构建电力领域词库;
[0015]获取训练集文本序列;
[0016]基于所述训练集文本序列通过word2vec模型计算得到所述电力领域词库中各个词的空间向量,所述训练集文本序列通过字Embedding层计算得到字向量;
[0017]通过字词混合Embedding方法得到所述字词混合Embedding向量序列编码;
[0018]加上一个与字向量序列维度相同的Position Embedding向量,以使得所述编码出的向量序列的位置信息更加明显;
[0019]将所述字向量序列编码输入到膨胀率依次为1,2,5,1,2,5,1,2,5,1,1,1的12层膨胀门卷积神经网络中进行学习,以输出得到第一序列;
[0020]将所述第一序列传入一层自注意力层中得到第二序列;
[0021]将所述第二序列传入全连接层输出,用半指针半标注结构预测实体的首位置,以及实体的尾位置,以得到标注实体。
[0022]优选的,所述构建电力领域词库,包括:
[0023]建立字典树索引,统计待抽取文本中每个字符和二元组出现的频率,并标记为词频,按照词频从大至小的顺序取出二元组作为候选词语,其中,所述二元组由每个字符与右邻字符组成;
[0024]获取点互信息阈值,左右信息熵阈值,词频阈值,最大词长度阈值;
[0025]计算候选词语的点互信息;
[0026]当候选词语的点互信息大于点互信息阈值时,将所述候选词语标记为待选词语;
[0027]计算所述待选词语的左信息熵和右信息熵;
[0028]若所述待选词语的左信息熵大于左右信息熵阈值,且所述待选词语的右信息熵大于左右信息熵阈值,且所述待选词语的词频大于词频阈值,将所述待选词语存入所述电力领域词库;
[0029]若所述待选词语的右信息熵小于左右信息熵阈值,向右扩展所述待选词语,以得到右扩词语,且所述右扩词语的长度小于最大词长度阈值,然后再次执行所述计算所述待选词语的左信息熵和右信息熵,及之后的步骤;
[0030]若所述待选词语的左信息熵小于左右信息熵阈值,向左扩展所述待选词语,以得到左扩词语,且所述左扩词语的长度小于最大词长度阈值,然后再次执行所述计算所述待选词语的左信息熵和右信息熵,及之后的步骤。
[0031]优选的,计算候选词语的点互信息的计算公式为:
[0032][0033]其中,PMI(a
i
,b
j
)为待抽取文本中候选词语a
i
b
j
的点互信息;P(a
i
,b
j
)是待抽取文本中候选词语的相邻字符a
i
和字符b
j
组合的字符a
i
b
j
出现的概率,P(a
i
)是字符a
i
在待抽取文本中出现的概率,P(b
j
)是字符b
j
在待抽取文本中出现的概率。
[0034]优选的,所述加上一个与字向量序列维度相同的Position Embedding向量,以使得所述电力领域词库中各个词的位置信息更加明显,中Position Embedding的计算公式
为:
[0035][0036]其中,上述公式即是将位置id为p的位置映射为一个d
pos
维的位置向量,所述位置向量的第i个数值为PE
i
(p)。
[0037]优选的,所述将所述向量序列编码输入到膨胀率依次为1,2,5,1,2,5,1,2,5,1,1,1的12层膨胀门卷积神经网络中进行学习,以得到第一序列,包括:
[0038]将待处理的向量序列设置为z,且z=[z1,z2,...,z
n
];
[0039]将所述向量序列编码输入至所述卷积神经网络卷积层,并在卷积时给卷积添加一个门机制,以得到输出结果第一序列,其中,第一序列的表达式为:
[0040][0041]其中,Y表示所述第一序列,σ为Sigmoid激活函数,Conv1D1与Conv1D2为形式一样的两个一维卷积,其中一个以sigmoid激活本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习算法的电力设备三元组构建方法,其特征在于,包括:基于数据流编程构建的三元组提取模型:以自顶向下的构建方式构建模式层,并在所述模式层的指导下,采用自底向上的方式构建数据层,其中,所述模式层是知识抽取的知识组织架构,是对实体、实体间关系以及属性进行描述的数据模型,所述数据层包括命名实体抽取模型和实体关系抽取模型;利用所述命名实体抽取模型对待抽取文本进行电力设备命名实体识别,以实现电力设备命名实体抽取,并进行标注以得到标注实体;基于所述标注实体,通过所述实体关系抽取模型对所述待抽取文本进行电力设备实体关系抽取,以提取电力设备三元组,其中,所述实体关系抽取模型包括双向循环网络、膨胀门卷积神经网络和自注意力模型。2.根据权利要求1所述的一种基于深度学习算法的电力设备三元组构建方法,其特征在于,所述基于所述标注实体,通过所述实体关系抽取模型对所述待抽取文本进行电力设备实体关系抽取,以提取电力设备三元组,包括:将所述命名实体抽取模型标注的实体作为所述实体关系抽取模型的一个输入,以得到第一结果,将待抽取文本重新训练得到的特征向量作为所述实体关系抽取模型另一个输入,以得到第二结果,将所述第一结果和所述第二结果拼接,并传入卷积神经网络,以提取到电力设备三元组。3.根据权利要求2所述的一种基于深度学习算法的电力设备三元组构建方法,其特征在于,所述通过所述命名实体抽取模型对待抽取文本进行电力设备命名实体识别,以实现电力设备命名实体抽取,并进行标注以得到标注实体,包括:构建电力领域词库;获取训练集文本序列;基于所述训练集文本序列通过word2vec模型计算得到所述电力领域词库中各个词的空间向量,所述训练集文本序列通过字Embedding层计算得到字向量;通过字词混合Embedding方法得到所述字词混合Embedding向量序列编码;加上一个与字向量序列维度相同的Position Embedding向量,以使得所述编码出的向量序列的位置信息更加明显;将所述向量序列编码输入到膨胀率依次为1,2,5,1,2,5,1,2,5,1,1,1的12层膨胀门卷积神经网络中进行学习,以输出得到第一序列;将所述第一序列传入一层自注意力层中得到第二序列;将所述第二序列传入全连接层输出,用半指针半标注结构预测实体的首位置,以及实体的尾位置,以得到标注实体。4.根据权利要求3所述的一种基于深度学习算法的电力设备三元组构建方法,其特征在于,所述构建电力领域词库,包括:建立字典树索引,统计待抽取文本中每个字符和二元组出现的频率,并标记为词频,按照词频从大至小的顺序取出二元组作为候选词语,其中,所述二元组由每个字符与右邻字符组成;获取点互信息阈值,左右信息熵阈值,词频阈值,最大词长度阈值;计算候选词语的点互信息;
当候选词语的点互信息大于点互信息阈值时,将所述候选词语标记为待选词语;计算所述待选词语的左信息熵和右信息熵;若所述待选词语的左信息熵大于左右信息熵阈值,且所述待选词语的右信息熵大于左右信息熵阈值,且所述待选词语的词频大于词频阈值,将所述待选词语存入所述电力领域词库;若所述待选词语的右信息熵小于左右信息熵阈值,向右扩展所述待选词语,以得到右扩词语,且所述右扩词语的长度小于最大词长度阈值,然后再次执行所述计算所述待选词语的左信息熵和右信息熵,及之后的步骤;若所述待选词语的左信息熵小于左右信息熵阈值,向左扩展所述待选词语,以得到左扩词语,且所述左扩词语的长度小于最大词长度阈值,然后再次执行所述计算所述待选词语的左信息熵和右信息熵,及之后的步骤。5.根据权利要求4所述的一种基于深度学习算法的电力设备三元组构建方法,其特征在于,计算候选词语的点互信息的计算公式为:其中,PMI(a
i
,b
j
)为待抽取文本中候选词语a
i
b

【专利技术属性】
技术研发人员:陈文刚宰洪涛张秀丽张轲许泳涛罗滇生何洪英尹希浩奚瑞瑶符芳育方杰罗广唯
申请(专利权)人:国网山西省电力公司晋城供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1