一种电网调度文本知识抽取方法、系统和介质技术方案

技术编号：38150781 阅读：11 留言：0更新日期：2023-07-13 09:14

本发明专利技术公开了一种电网调度文本知识抽取方法、系统和介质，构建用于电网调度的一个或多个抽取模板；根据用于知识抽取的电网调度文本得到多个设定文本长度的文本，并将其填入到所述抽取模板中，得到多个待分析语句；利用预训练语言模型对所述多个待分析语句进行评分，得分最高的待分析语句即为从电网调度文本中抽取出的电力知识。利用本发明专利技术，实现了电网调度领域文本的快速结构化提取和文本知识图谱构建，节省了大量的人工时间成本；实现少样本学习甚至零样本学习，解决了中文电力领域数据量少的问题；并且将各个抽取任务进行模式统一，预训练模型不需要反复微调。预训练模型不需要反复微调。预训练模型不需要反复微调。

全部详细技术资料下载

【技术实现步骤摘要】
一种电网调度文本知识抽取方法、系统和介质

[0001]本专利技术属于自然语言处理与电网调度交叉
，具体涉及一种电网调度文本知识抽取方法、系统和介质。

技术介绍

[0002]在电网调控领域，调度人员依靠调度规程、故障处置预案等电网调度文本来处置电网异常情况。近年来，随着电网业务不断发展，调度规程、故障处置预案等电网调度文本种类和数量骤增，调度人员的工作压力骤然增大。调度人员在遇到电网异常时，调度人员基于电网异常情况定位到相关处置文本，在文本中查找相关异常处置措施。
[0003]随着电网运行方式日益复杂，电网调度文本种类和数量显著增多、人工处置风险增加，异常发生后可供处置的时间窗口小，需要调度人员快速处置，故障方式复杂多样，严重依赖调度员的经验、调度员培养周期长等问题日益突出。因此，需要快速准确的对电网调度文本包含的知识进行抽取，帮助调度人员进行异常处置，降低人工操作风险。
[0004]现有的抽取方法，由于电力领域的数据需要具备领域知识的专业人员的大量标注，在实际应用中训练数据不足,存在少样本(few
‑
shot)问题。中文电力场景中,对比英文场景和通用领域场景，实体类型更多,训练数据更少。且现有的抽取方法中微调预训练模型一直在不断调整，一旦抽取任务发生变化，不仅模型需要训练，而且还占用大量内存。即各个抽取任务的模式不够统一。

技术实现思路

[0005]为了解决电网异常处置时严重依赖人工经验的问题，以及抽取训练数据少、模式不统一的问题，本专利技术提出了一种电网调度文...

【技术保护点】

【技术特征摘要】
1.一种电网调度文本的知识抽取方法，其特征在于，包括：S1、构建用于从电网调度文本中抽取电力知识的一个或多个抽取模板；S2、根据电网调度文本得到多个设定文本长度的文本，并将其填入到所述抽取模板中，得到多个待分析语句；S3、利用预训练语言模型对所述多个待分析语句进行评分，得分最高的待分析语句即为从电网调度文本中抽取出的电力知识。2.如权利要求1所述的电网调度文本的知识抽取方法，其特征在于，所述抽取模板包含一个或多个掩码槽，所述掩码槽用于统一所有抽取模板的文本格式，其包括待填入的输入文本和/或输出文本。3.如权利要求2所述的电网调度文本的知识抽取方法，其特征在于，当所述抽取模板用于识别实体时，所述输入文本为从所述电网调度文本中得到的待识别是否为实体的文本；输出文本为设定的实体类型。4.如权利要求2所述的电网调度文本的知识抽取方法，其特征在于，当所述抽取模板用于识别实体间的关系时，所述输入文本为用于表示实体的文本；输出文本为设定的实体间的关系。5.如权利要求2或3所述的电网调度文本的知识抽取方法，其特征在于，当所述抽取模板用于识别实体时，所述步骤S1中的抽取模板为：“[mask
‑
e]是一个[mask
‑
t]类型的实体”和/或“[mask
‑
e]不是一个实体”；其中：mask
‑
e为表示输入文本的掩码槽，即待识别是否为实体的文本；mask
‑
t为表示输出文本的掩码槽，即设定的实体类型。6.如权利要求1、2、4任一项所述的电网调度文本的知识抽取方法，其特征在于，当所述抽取模板用于识别实体时，所述步骤S2中，根据电网调度文本得到多个设定文本长度的文本的方法包括：S201、设定输入文本的最大文本长度和/或最小文本长度；S202、根据设定的最大文本长度和/或最小文本长度，从所述电网调度文本中枚举出文本长度符合步骤S201中所述最大文本长度和/或最小文本长度的所有文本作为输入文本。7.如权利要求2或4所述的电网调度文本的知识抽取方法，其特征在于，当所述抽取模板用于识别实体间的关系时，所述抽取模板为：“[sentence]，[mask
‑
e1]是[...

【专利技术属性】
技术研发人员：鄢驩骏，尚学伟，
申请(专利权)人：北京科东电力控制系统有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人