一种电网调度文本知识抽取方法、系统和介质技术方案

技术编号:38150781 阅读:11 留言:0更新日期:2023-07-13 09:14
本发明专利技术公开了一种电网调度文本知识抽取方法、系统和介质,构建用于电网调度的一个或多个抽取模板;根据用于知识抽取的电网调度文本得到多个设定文本长度的文本,并将其填入到所述抽取模板中,得到多个待分析语句;利用预训练语言模型对所述多个待分析语句进行评分,得分最高的待分析语句即为从电网调度文本中抽取出的电力知识。利用本发明专利技术,实现了电网调度领域文本的快速结构化提取和文本知识图谱构建,节省了大量的人工时间成本;实现少样本学习甚至零样本学习,解决了中文电力领域数据量少的问题;并且将各个抽取任务进行模式统一,预训练模型不需要反复微调。预训练模型不需要反复微调。预训练模型不需要反复微调。

【技术实现步骤摘要】
一种电网调度文本知识抽取方法、系统和介质


[0001]本专利技术属于自然语言处理与电网调度交叉
,具体涉及一种电网调度文本知识抽取方法、系统和介质。

技术介绍

[0002]在电网调控领域,调度人员依靠调度规程、故障处置预案等电网调度文本来处置电网异常情况。近年来,随着电网业务不断发展,调度规程、故障处置预案等电网调度文本种类和数量骤增,调度人员的工作压力骤然增大。调度人员在遇到电网异常时,调度人员基于电网异常情况定位到相关处置文本,在文本中查找相关异常处置措施。
[0003]随着电网运行方式日益复杂,电网调度文本种类和数量显著增多、人工处置风险增加,异常发生后可供处置的时间窗口小,需要调度人员快速处置,故障方式复杂多样,严重依赖调度员的经验、调度员培养周期长等问题日益突出。因此,需要快速准确的对电网调度文本包含的知识进行抽取,帮助调度人员进行异常处置,降低人工操作风险。
[0004]现有的抽取方法,由于电力领域的数据需要具备领域知识的专业人员的大量标注,在实际应用中训练数据不足,存在少样本(few

shot)问题。中文电力场景中,对比英文场景和通用领域场景,实体类型更多,训练数据更少。且现有的抽取方法中微调预训练模型一直在不断调整,一旦抽取任务发生变化,不仅模型需要训练,而且还占用大量内存。即各个抽取任务的模式不够统一。

技术实现思路

[0005]为了解决电网异常处置时严重依赖人工经验的问题,以及抽取训练数据少、模式不统一的问题,本专利技术提出了一种电网调度文本的知识抽取方法、系统和介质。
[0006]实现本专利技术目的之一的一种电网调度文本知识抽取方法,包括:
[0007]S1、构建用于从电网调度文本抽取电力知识的一个或多个抽取模板;所述抽取模板用于将从电网调度文本中得到的文本格式进行统一;
[0008]S2、根据电网调度文本得到多个设定文本长度的文本,并将其填入到所述抽取模板中,得到多个待分析语句;
[0009]S3、利用预训练语言模型对所述多个待分析语句进行评分,得分最高的待分析语句即为从电网调度文本中抽取出的电力知识。
[0010]进一步地,所述抽取模板包含一个或多个掩码槽,所述掩码槽用于统一所有抽取模板的文本格式,其包括待填入的输入文本和/或输出文本,将步骤S2中得到的多个设定文本长度的文本作为输入文本和/或输出文本填入抽取模板的掩码槽中。
[0011]进一步地,当所述抽取模板用于识别实体时,所述输入文本为从文本中得到的待识别是否为实体的文本;输出文本为设定的实体类型。所述实体为客观存在的能区别于他物的事物,多为名词,在电网调度领域,包括但不限于某个调度、厂站、各种各样的电网设备如母线、变压器、高压线等。
[0012]进一步地,当所述抽取模板用于识别实体间的关系时,所述输入文本为用于表示实体的文本;输出文本为设定的实体间的关系。
[0013]进一步地,当所述抽取模板用于识别实体时,所述步骤S1中的抽取模板为:“[mask

e]是一个[mask

t]类型的实体”和/或“[mask

e]不是一个实体”;其中:mask

e为表示输入文本的掩码槽,即待识别是否为实体的文本;mask

t为表示输出文本的掩码槽,即设定的实体类型。
[0014]进一步地,当所述抽取模板用于识别实体时,所述步骤S2中,根据电网调度文本得到多个设定文本长度的文本的方法包括:
[0015]S201、设定输入文本的最大文本长度和/或最小文本长度;
[0016]S202、根据设定的最大文本长度和/或最小文本长度,从所述电网调度文本中枚举出文本长度符合步骤S201中所述最大文本长度和/或最小文本长度的所有文本作为输入文本;
[0017]上述枚举方法举例如下:如电力文本为:“AB省调令CD电厂增加出力50MW”,假设最小文本长度为2,最大文本长度为4,那么枚举出的所有文本包括但不限于:“AB、AB省、AB省调、B省、B省调、B省调令、省调、调省令、省调令C......”,需要强调的是枚举出的所有文本中的文本顺序必须与电力文本中的文本顺序一致。
[0018]当所述抽取模板用于识别实体间的关系时,所述抽取模板为:
[0019]“[sentence],[mask

e1]是[mask

e2]的[mask

r]”;
[0020]其中:sentence为电网调度文本;mask

e1和mask

e2为表示输入文本的掩码槽,填入待判断实体关系的实体名,mask

r为设定的实体间的关系;所述关系用于表示两个实体间的关系,如:上级、下级等。
[0021]进一步地,所述步骤S3中,利用预训练语言模型对所述多个待分析语句进行评分的方法包括:
[0022][0023]式中:
[0024]表示x
i:j
为y
k
的概率;
[0025][0026]x
i:j
:填入抽取模板中的输入文本,表示由待分析文本中的第i个字至第j个字组成的文本;,i,j∈[1,m],m表示待分析语句的文本长度;
[0027]y
k
:填入到抽取模板中的输出文本;
[0028]t
i
表示待分析语句中的第i个字;
[0029]p(t
c
|t
1:c
‑1,X):表示将待分析语句输入到预训练语言模型后输出的长度为m的预测语句中,当第1个字至第c

1个字依次为t1至t
c
‑1时,预测语句第c个字为t
c
的概率;
[0030]特别的,当c=1时,表示预测语句的第1个字为t1的概率;举例如下:
[0031]待分析语句为:“河南省调是一个调度类型的实体”;
[0032]当c=1时,p(t1|t
1:0
,X)表示预训练语言模型输出的预测语句中第一个字为t1(即"
河")的概率;
[0033]当c=2时,p(t2|t
1:1
,X)表示预训练语言模型输出的预测语句的第一个字为"河"的情况下,该预测语句的第2个字为t2(即“南”)的概率;
[0034]当c=3时,p(t3|t
1:2
,X)表示预训练语言模型输出的预测语句的前面2个字为"河南"的情况下,该预测语句的第3个字为“省”的概率;
[0035]当c=4时,p(t4|t
1:3
,X)表示预训练语言模型输出的预测语句的前面3个字为"河南省"的情况下,该预测语句的第4个字为“调”的概率;
[0036]X={x1,x2,
……
,x
n
,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电网调度文本的知识抽取方法,其特征在于,包括:S1、构建用于从电网调度文本中抽取电力知识的一个或多个抽取模板;S2、根据电网调度文本得到多个设定文本长度的文本,并将其填入到所述抽取模板中,得到多个待分析语句;S3、利用预训练语言模型对所述多个待分析语句进行评分,得分最高的待分析语句即为从电网调度文本中抽取出的电力知识。2.如权利要求1所述的电网调度文本的知识抽取方法,其特征在于,所述抽取模板包含一个或多个掩码槽,所述掩码槽用于统一所有抽取模板的文本格式,其包括待填入的输入文本和/或输出文本。3.如权利要求2所述的电网调度文本的知识抽取方法,其特征在于,当所述抽取模板用于识别实体时,所述输入文本为从所述电网调度文本中得到的待识别是否为实体的文本;输出文本为设定的实体类型。4.如权利要求2所述的电网调度文本的知识抽取方法,其特征在于,当所述抽取模板用于识别实体间的关系时,所述输入文本为用于表示实体的文本;输出文本为设定的实体间的关系。5.如权利要求2或3所述的电网调度文本的知识抽取方法,其特征在于,当所述抽取模板用于识别实体时,所述步骤S1中的抽取模板为:“[mask

e]是一个[mask

t]类型的实体”和/或“[mask

e]不是一个实体”;其中:mask

e为表示输入文本的掩码槽,即待识别是否为实体的文本;mask

t为表示输出文本的掩码槽,即设定的实体类型。6.如权利要求1、2、4任一项所述的电网调度文本的知识抽取方法,其特征在于,当所述抽取模板用于识别实体时,所述步骤S2中,根据电网调度文本得到多个设定文本长度的文本的方法包括:S201、设定输入文本的最大文本长度和/或最小文本长度;S202、根据设定的最大文本长度和/或最小文本长度,从所述电网调度文本中枚举出文本长度符合步骤S201中所述最大文本长度和/或最小文本长度的所有文本作为输入文本。7.如权利要求2或4所述的电网调度文本的知识抽取方法,其特征在于,当所述抽取模板用于识别实体间的关系时,所述抽取模板为:“[sentence],[mask

e1]是[...

【专利技术属性】
技术研发人员:鄢驩骏尚学伟
申请(专利权)人:北京科东电力控制系统有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1