一种电力系统信息的关系抽取方法技术方案

技术编号:39667609 阅读:12 留言:0更新日期:2023-12-11 18:31
本发明专利技术公开一种电力系统信息的关系抽取方法

【技术实现步骤摘要】
一种电力系统信息的关系抽取方法、装置、设备及介质


[0001]本专利技术涉及自然语言处理
,尤其是涉及一种电力系统信息的关系抽取方法

装置

终端设备及计算机可读存储介质


技术介绍

[0002]目前,随着电力系统规模的扩大和数据的积累,电力系统知识图谱的构建和应用越来越受到关注

电力系统领域包含了设备

电网拓扑关系

技术参数等大量信息,这些信息的有效整合和利用对于提高电力系统的运行效率和安全性具有重要意义

而传统的数据库和信息检索方式,往往只能满足简单的查询和统计需求,并不能很好地表现出信息之间的复杂关系和隐含规律

因此,采用知识图谱来描述电力系统的信息,可以更加直观地展现信息之间的关系,帮助人们从中发现新的规律和知识,并为电力系统的管理和优化提供决策支持

知识图谱作为一种基于大数据和人工智能技术的信息组织和检索方式,可以为电力系统的可持续发展

智能化和安全稳定运行提供强有力的支撑,促进电力系统的可持续发展

[0003]但是,由于电力系统领域的复杂性

多样化和数据缺乏等问题,现有的知识图谱构建技术需要大量的人工标注且标注人员需要掌握大量的领域专业知识,从而现有技术难以达到较高的精确度和覆盖率


技术实现思路

[0004]本专利技术提供一种电力系统信息的关系抽取方法

装置

设备及介质,在无需人工标注与模型训练的基础上,通过生成式预训练语言模型和各种抽取问题模板,实现从电力系统文本数据自动提取用于构建知识图谱的关系三元组,能够达到较高的精确度和覆盖率

[0005]为了解决上述技术问题,本专利技术实施例第一方面提供一种电力系统信息的关系抽取方法,包括如下步骤:
[0006]获取电力系统文本数据,并对所述电力系统文本数据进行预处理,确定所述电力系统文本数据的若干待处理分句;
[0007]基于预设的实体类型列表和关系列表,将所述实体类型列表和所述关系列表分别与各待处理分句进行结合,生成若干实体类型抽取问题模板和关系抽取问题模板;
[0008]将若干所述实体类型抽取问题模板和所述关系抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干实体类型和关系;
[0009]基于预设的若干用于表征不同实体类型之间的关系的链提取模板,将各待处理分句所包含的若干实体类型

关系与若干所述链提取模板进行匹配,确定各待处理分句所对应的若干目标链提取模板;
[0010]将所述待处理分句分别与若干所述目标链提取模板进行结合,生成若干实体关系抽取问题模板,并将若干所述实体关系抽取问题模板输入至所述生成式预训练语言模型,
通过所述生成式预训练语言模型获取所述待处理分句所包含的各关系所对应的若干对实体;
[0011]根据各待处理分句所包含的各关系所对应的若干对实体,生成若干关系三元组,并将若干所述关系三元组作为所述电力系统文本数据的关系抽取结果

[0012]作为优选方案,所述对所述电力系统文本数据进行预处理,确定所述电力系统文本数据的若干待处理分句,具体包括如下步骤:
[0013]对所述电力系统文本数据进行清洗处理和缺失数据填充;
[0014]对清洗处理和缺失数据填充后的电力系统文本数据按照段落结构进行分段处理;
[0015]通过
NLTK
库中的
sent_tokenize
函数对分段处理后的电力系统文本数据进行分句处理,获得所述电力系统文本数据的若干待处理分句

[0016]作为优选方案,所述实体类型列表包括若干实体类型,所述实体类型包括但不仅限于发电机

变压器

输电线路

变电站

电力负荷

电力市场

电力设备

电能计量设备

电力保护装置

发电厂

电力消费者

能源资源

电网运营公司

电力系统规划部门和监管机构;
[0017]所述关系列表包括若干关系,所述关系包括但不仅限于连接关系

供需关系

控制和保护关系

资源关系

消费关系

规划和管理关系

[0018]作为优选方案,所述方法将若干所述实体类型抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干实体类型,具体包括如下步骤:
[0019]将若干所述实体类型抽取问题模板输入至所述生成式预训练语言模型,根据各实体类型抽取问题模板所对应的待处理分句和所述实体类型列表,通过所述生成式预训练语言模型判断所述待处理分句是否包含所述实体类型列表中的任意一个实体类型;
[0020]当所述待处理分句包含所述实体类型列表中的任意一个实体类型时,判定所述任意一个实体类型为所述待处理分句所对应的实体类型抽取问题模板的答案;
[0021]当所述待处理分句不包含所述实体类型列表中的任意一个实体类型时,将所述待处理分句所对应的实体类型抽取问题模板的答案标记为
NONE

[0022]根据各实体类型抽取问题模板的答案,确定各待处理分句所包含的若干实体类型

[0023]作为优选方案,所述方法将若干所述关系抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干关系,具体包括如下步骤:
[0024]将若干所述关系抽取问题模板输入至所述生成式预训练语言模型,根据各关系抽取问题模板所对应的待处理分句和所述关系列表,通过所述生成式预训练语言模型判断所述待处理分句是否包含所述关系列表中的任意一种关系;
[0025]当所述待处理分句包含所述关系列表中的任意一种关系时,判定所述任意一种关系为所述待处理分句所对应的关系抽取问题模板的答案;
[0026]当所述待处理分句不包含所述关系列表中的任意一种关系时,将所述待处理分句所对应的关系抽取问题模板的答案标记为
NONE

[0027]根据各关系抽取问题模板的答案,确定各待处理分句所包含的若干关系

[0028]作为优选方案,所述将各待处理分句所包含的若干实体类型

关系与若干所述链提取模板进行匹配,确定各待处理分句所对应的若干目标链提取模板,具体包括如下步骤:
[0029]根据各链提取模板所表示的第一目标实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种电力系统信息的关系抽取方法,其特征在于,包括如下步骤:获取电力系统文本数据,并对所述电力系统文本数据进行预处理,确定所述电力系统文本数据的若干待处理分句;基于预设的实体类型列表和关系列表,将所述实体类型列表和所述关系列表分别与各待处理分句进行结合,生成若干实体类型抽取问题模板和关系抽取问题模板;将若干所述实体类型抽取问题模板和所述关系抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干实体类型和关系;基于预设的若干用于表征不同实体类型之间的关系的链提取模板,将各待处理分句所包含的若干实体类型

关系与若干所述链提取模板进行匹配,确定各待处理分句所对应的若干目标链提取模板;将所述待处理分句分别与若干所述目标链提取模板进行结合,生成若干实体关系抽取问题模板,并将若干所述实体关系抽取问题模板输入至所述生成式预训练语言模型,通过所述生成式预训练语言模型获取所述待处理分句所包含的各关系所对应的若干对实体;根据各待处理分句所包含的各关系所对应的若干对实体,生成若干关系三元组,并将若干所述关系三元组作为所述电力系统文本数据的关系抽取结果
。2.
如权利要求1所述的电力系统信息的关系抽取方法,其特征在于,所述对所述电力系统文本数据进行预处理,确定所述电力系统文本数据的若干待处理分句,具体包括如下步骤:对所述电力系统文本数据进行清洗处理和缺失数据填充;对清洗处理和缺失数据填充后的电力系统文本数据按照段落结构进行分段处理;通过
NLTK
库中的
sent_tokenize
函数对分段处理后的电力系统文本数据进行分句处理,获得所述电力系统文本数据的若干待处理分句
。3.
如权利要求1所述的电力系统信息的关系抽取方法,其特征在于,所述实体类型列表包括若干实体类型,所述实体类型包括但不仅限于发电机

变压器

输电线路

变电站

电力负荷

电力市场

电力设备

电能计量设备

电力保护装置

发电厂

电力消费者

能源资源

电网运营公司

电力系统规划部门和监管机构;所述关系列表包括若干关系,所述关系包括但不仅限于连接关系

供需关系

控制和保护关系

资源关系

消费关系

规划和管理关系
。4.
如权利要求3所述的电力系统信息的关系抽取方法,其特征在于,所述方法将若干所述实体类型抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干实体类型,具体包括如下步骤:将若干所述实体类型抽取问题模板输入至所述生成式预训练语言模型,根据各实体类型抽取问题模板所对应的待处理分句和所述实体类型列表,通过所述生成式预训练语言模型判断所述待处理分句是否包含所述实体类型列表中的任意一个实体类型;当所述待处理分句包含所述实体类型列表中的任意一个实体类型时,判定所述任意一个实体类型为所述待处理分句所对应的实体类型抽取问题模板的答案;当所述待处理分句不包含所述实体类型列表中的任意一个实体类型时,将所述待处理分句所对应的实体类型抽取问题模板的答案标记为
NONE

根据各实体类型抽取问题模板的答案,确定各待处理分句所包含的若干实体类型
。5.
如权利要求3所述的电力系统信息的关系抽取方法,其特征在于,所述方法将若干所述关系抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干关系,具体包括如下步骤:将若干所述关系抽取问题模板输入至所述生成式预训练语言模型,根据各关系抽取问题模板所对应的待处理分句和所述关系列表,通过所述生成式预训练语言模型判断所述待处理分句是否包含所述关系列表中的任意一种关系;当所述待处理分句包含所述关系列表中的任意一种关系时,判定所述任意一种关系为所述待处理分句所对应的关系抽取问题模板的答案;当所...

【专利技术属性】
技术研发人员:冯珺王红凯陈浩李钟煦潘司晨王艺丹毛冬陈祖歌
申请(专利权)人:国网浙江省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1