一种基于深度学习的电力领域知识图谱关系发现方法技术

技术编号:38885590 阅读:12 留言:0更新日期:2023-09-22 14:13
本发明专利技术公开了一种基于深度学习的电力领域知识图谱关系发现方法,涉及电力领域技术领域,利用专业领域知识构建电力领域知识图谱,并在其中添加实体以及它们之间的关系;利用增量式训练得到的BERT模型提取中文文本特征,并结合知识图谱中的实体和关系信息进行序列标注学习;同时结合堆叠卷积神经网络和学生重排序网络,能够高精度进行知识图谱补全和预测实体之间的关系。本发明专利技术方法能够利用电力领域的专业知识,实现对实体间关系的准确、高效、自动化的挖掘,并快速、准确地维护和更新知识图谱。准确地维护和更新知识图谱。准确地维护和更新知识图谱。

【技术实现步骤摘要】
一种基于深度学习的电力领域知识图谱关系发现方法


[0001]本专利技术涉及电力领域
,具体为一种基于深度学习的电力领域知识图谱关系发现方法。

技术介绍

[0002]随着科学技术的不断发展和企业数字化转型的不断深入,数字电网和智慧电网建设已经成为中国电力能源领域中的重要焦点。在这一背景下,利用人工智能技术进行技术支撑和理论研究变得尤为重要。舆情监测的自动化能够帮助相关机构组织及时了解电力行业的舆情信息和发展趋势,以便调整生产工作并预警风险。为了凝练出智慧,获得更多的相关领域资源,建设智慧电网需要将非结构化数据转化为知识。传统的知识图谱已经难以满足信息飞速增长的需求,而实体关系发现(Entity Relationship Discovery)作为知识图谱补全技术的基础和核心任务之一,对于将信息转化为知识至关重要。在电力行业新闻报道方面,改进实体关系模型可以提高知识图谱补全的效率,助力智慧电网的建设,并为相关监管决策提供有力支持,这具有十分重要的意义。
[0003]知识图谱补全是通过将三元组中的实体和关系编码到低维空间中,预测其中缺失的实体或关系,并将预测出的结果补到图谱中,得到更加完整的知识图谱。现有的知识图谱补全模型分为基于翻译的模型和基于神经网络的模型。其中基于翻译的模型又可细分为基于平移的补全模型和基于旋转的补全模型。其中,最早的基于翻译的模型是TransE模型,该模型通过把知识图谱中的三元组向量化,利用公式h+r≈t来进行预测,实现知识图谱的补全。但是由于TransE模型比较简单,无法很好地处理一对多、多对多这种复杂关系,为了弥补TransE的这个不足,TransH针对每个关系r定义了一个超平面,将实体映射到超平面上进行计算。TransR模型改进了TransH只关注同一语义平面中三元组的局限,提出了在实体空间和多个关系空间内进行建模。基于旋转的翻译模型能够处理更复杂的关系,如RotatE模型,该模型将每个关系看作复数空间中的一种旋转,通过这种方法,该模型能够处理对称、反对称等复杂关系。后续也有研究对这些模型进行了组合与改进。通过将两个简单的关系预测模型SE与TransE进行组合,提出了一个新型的嵌入模型STransE,该模型将每个实体都被表示为低维向量,并通过两个矩阵和一个平移向量表示每个关系。虽然STransE的性能优于TransE,但它更容易出现数据稀疏问题。
[0004]而伴随着神经网络的发展,现在也有不少研究将神经网络模型应用到知识图谱补全中,相较于线性的补全模型,神经网络这种非线性的模型能够得到更好的特征。ConvE模型首次利用卷积神经网络对图谱进行补全,将头实体和关系重构为二维矩阵,通过卷积层和全连接层建模实体和关系之间的相互作用。然后与矩阵W和尾实体进行计算,判断当前事实三元组的可信度。ConvKB模型对ConvE进行了改进,将三元组视为整体,拼接成三列矩阵作为卷积输入,而不是仅对单个关系和实体进行拼接,实现实体和关系之间的交互。随着深度学习的发展,图卷积网络模型突破了卷积神经网络的局限性,能够通过映射函数来聚合知识图谱中的数据,捕捉自身和邻域的特征信息。一些学者定义了邻域编码器,以同等权重
聚合实体的直接邻居信息,然后利用长短期记忆网络进行实体对的多步匹配,以实现关系预测。还有一些研究者在少样本情况下提出了动态属性概念,并通过自适应注意力网络FAAN来学习动态表征,以帮助解决不同关系下只能得到静态实体表示的问题。
[0005]近年来,实体关系发现技术在自然语言处理领域得到了广泛应用。然而,在实际应用中,仍然存在一些挑战和限制。在真实场景中,为了准确识别和定位实体及其关系,往往需要结合一些辅助信息,如上下文和相关知识库。这些信息可以帮助算法更好地理解实体和关系,提高实体关系提取的准确性。但是,由于缺乏必要信息,可能会出现错误或无法识别,导致知识图谱无法建立。而且在电力领域,实体关系通常涉及多个属性,如时间、地点、因果关系等,同时也可能跨越多个句子和段落。这使得实体关系提取更加困难,增加了算法的复杂性,影响了准确性。在电力领域的知识图谱构建中,实体关系发现的准确性至关重要。实体关系的误差会逐步累积,最终导致知识图谱的不准确和不完整。因此,需要采用更加先进的实体关系发现技术,结合电力领域的特殊要求,不断提高实体关系提取的准确性和效率,进一步促进电力领域的知识图谱构建和应用。因此,未来设计更加有效的知识图谱补全模型,有望成为电力行业大数据分析领域的一个重要方向。
[0006]于是,有鉴于此,针对现有的结构及缺失予以研究改良,提出一种基于深度学习的电力领域知识图谱关系发现方法。

技术实现思路

[0007]针对现有技术的不足,本专利技术提供了一种基于深度学习的电力领域知识图谱关系发现方法,解决了上述
技术介绍
中提出的文本中缺乏信息、数据稀疏、文本跨度大等问题。
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于深度学习的电力领域知识图谱关系发现方法,包括以下步骤:
[0009]步骤1、采用网络爬虫的方法,获取与电力领域相关的新闻报道文本数据,并对其进行预处理操作。具体而言,我们会对文本内容进行格式化,去除停用词,并提取电力相关领域的专业词汇。随后,将预处理后的文本数据进行标注,得到适用于电力领域的训练数据;
[0010]步骤2、采用公共领域新闻文本作为基础语料库,对其中的数据进行分句、分词等预处理工作,并加入步骤1形成的电力相关领域专业词汇。在此基础之上,得到了一个电力领域新闻报道语料资源库。利用该语料库,我们对中文文本进行向量化处理,利用语料资源库中的文本按照中文字符的拆分方式对双向深度自注意力变换网络的编码器BERT进行增量训练,获得对应的预训练语言模型;
[0011]步骤3、通过BERT预计算实体嵌入,将其与学习到的关系嵌入堆叠,并投影到二维空间特征图上。再对特征图进行一系列二维卷积,最终特征图进行平均池化并投影到一个查询向量,用于排列候选实体。
[0012]步骤4、利用知识蒸馏获得一个学生模型,对排序结果进行重排。即提取有可能的候选实体并使用原始排名模型中的知识进行再训练,即重新排列模型。最终的候选排名是通过原始排列和重新排列模型的集合生成的。
[0013]进一步的,所述步骤1中,构建面向电力领域的新闻报道文本的网络爬虫,爬取范围包含电力行业的标准变动、技术前沿发展、故障报道、电力市场信息等;将爬取到的电力
领域新闻报道文本数据进行预处理操作,如格式化处理文本内容,去除其中无意义的停用词等,最终获得文本集合D={d1,d2,...,d
n
},其中d
i
表示预处理过的新闻报道文本。在文本集合D的基础上通过人工总结和咨询专家得到领域专业词汇集合P,根据预定义的实体类型对新闻报道文本d
i
中的每句话进行标注,获得电力领域新闻报道训练数据集S={s1,s2,...,s
n
;T},其中s
i
为训练句子,T为每个句子对应的标注,标注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的电力领域知识图谱关系发现方法,其特征在于,包括以下步骤:步骤1、采用网络爬虫的方法,获取与电力领域相关的新闻报道文本数据,并对其进行预处理操作,对文本内容进行格式化,去除停用词,并提取电力相关领域的专业词汇,随后,将预处理后的文本数据进行标注,得到适用于电力领域的训练数据;步骤2、采用公共领域新闻文本作为基础语料库,对其中的数据进行分句、分词等预处理工作,并加入步骤1形成的电力相关领域专业词汇,在此基础之上,得到了一个电力领域新闻报道语料资源库,利用该语料库,我们对中文文本进行向量化处理,利用语料资源库中的文本按照中文字符的拆分方式对双向深度自注意力变换网络的编码器BERT进行增量训练,获得对应的预训练语言模型;步骤3、通过BERT预计算实体嵌入,将其与学习到的关系嵌入堆叠,并投影到二维空间特征图上,再对特征图进行一系列二维卷积,最终特征图进行平均池化并投影到一个查询向量,用于排列候选实体;步骤4、利用知识蒸馏获得一个学生模型,对排序结果进行重排,即提取候选实体并使用原始排名模型中的知识进行再训练,即重新排列模型,最终的候选排名是通过原始排列和重新排列模型的集合生成的。2.根据权利要求1所述的基于深度学习的电力领域知识图谱关系发现方法,其特征在于,所述步骤1中,构建面向电力领域的新闻报道文本的网络爬虫,爬取范围包含电力行业的标准变动、技术前沿发展、故障报道、电力市场信息等;将爬取到的电力领域新闻报道文本数据进行预处理操作,如格式化处理文本内容,去除其中无意义的停用词等,最终获得文本集合D={d1,d2,...,d
n
},其中d
i
表示预处理过的新闻报道文本,在文本集合D的基础上通过人工总结和咨询专家得到领域专业...

【专利技术属性】
技术研发人员:骆晓雪于军亮李畋孔庆宇
申请(专利权)人:国网智能电网研究院有限公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1