一种基于大语言模型提取倒闸操作信息的方法及系统技术方案

技术编号:39158822 阅读:12 留言:0更新日期:2023-10-23 15:01
本发明专利技术公开了一种基于大语言模型提取倒闸操作信息的方法及系统,涉及变电站运维技术领域,解决了传统NLP技术进行倒闸操作信息提取时,无法理解设备、操作同义表达的问题,其技术方案要点是:首先,通过分析设备/操作存在的同义表达,借助现有PLM预训练大语言模型对同义表达进行识别,基于模型识别错误的同义表达生成知识对话集,用于训练大语言模型的专业理解能力;其次,基于工作票和人工标注的倒闸操作信息生成任务对话集,用于训练大语言模型的问答功能;最终获得电力领域LLM模型,可从理解设备、操作的同义表达并以问答的方式提取倒闸操作信息,提高开票效率。提高开票效率。提高开票效率。

【技术实现步骤摘要】
一种基于大语言模型提取倒闸操作信息的方法及系统


[0001]本专利技术涉及变电站运维
,更具体地说,它涉及一种基于大语言模型提取倒闸操作信息的方法及系统。

技术介绍

[0002]在电力系统中,变电站作为一个非常重要的部分,具有不可或缺的作用,在对变电站设备检修时,需要先由检修班编写检修工作票,然后由运维班根据检修工作票内容编写倒闸操作票。变电站倒闸操作票是操作人员安全进行倒闸操作的依据,是变电站运行管理的重要方式,同时也是对相关工作人员及电气设备的安全保障。
[0003]目前,检修工作票和倒闸操作票的编写主要是由人工以手写的方式完成,一方面是为了使操作人员熟悉对设备的操作,另一方面是从安全角度考虑,保障出票的正确性。但由于编写人员的技术水平、经验知识差异性很大,再加上变电站设备的复杂性,工作票中描述的操作信息与设备信息时常带有多种表述方式,如设备别名的不统一,连词使用不统一等。尽管近年来自然语言处理技术取得了显著的进步,但在深度知识理解和复杂语境解析等方面仍然存在挑战。特别是当涉及大量、复杂、互相关联的信息时,传统NLP技术往往无法提供足够精确的解决方案。如二次设备中的测控电压空气开关有测控电压空气开关、测控、测控空开、测控电压开关、测控空气开关、测控电压空开、测控开关等表述,传统NLP技术虽然可以提取关键信息但是无法兼容设备的不同称谓的情况。
[0004]有基于此,专利技术人提供一种基于大语言模型提取倒闸操作信息的方法及系统,解决上述问题。

技术实现思路

[0005]本申请的目的是提供一种基于大语言模型提取倒闸操作信息的方法及系统,解决传统NLP技术进行倒闸操作信息提取时,无法理解设备、操作同义表达的问题。通过构建电力领域LLM模型,对相似的实体进行关联映射,使得模型理解变电站设备、操作的不同表达和设备间的复杂关系,提高其在工作票深度知识理解和复杂语境解析等任务上的性能,提高倒闸操作信息的提取精度。通过构建对话语料训练模型,使得模型可以通过对话的方式快速提取工作票中的倒闸操作信息,提高开票的效率与便捷性。
[0006]本申请首先提供一种基于大语言模型提取倒闸操作信息的方法,包括:获取工作票数据,将所述工作票数据输入电力领域LLM模型,获取倒闸操作信息;其中,所述电力领域LLM模型通过如下方法得到:S1、收集历史工作票数据,对所述历史工作票数据进行清洗与拆分,提取有效工作票数据,对所述有效工作票数据进行词性分析和实体命名任务处理,将处理后的有效工作票数据存入工作票库;S2、对所述工作票库内的有效工作票数据进行名词实体和动词实体抽取,对所述名词实体和动词实体进行向量化转换后分析相关的聚类数据,获得多组映射对,通过多组映射对评估PLM预训练大语言模型的理解能力,基于评估结果为消极的映射对构建知识对话集;对所述工作票库内的有效工作票进行人工标注操作信
息,通过有效工作票和人工标注的操作信息构建任务对话集; S3、通过知识对话集和任务对话集构建训练语料和测试语料,将训练语料输入PLM预训练大语言模型进行指令精调,获得电力领域LLM模型;S4、将测试语料输入所述电力领域LLM模型验证准确性。
[0007]传统的人工开票效率低下,基于NLP技术的开票方法虽然提高了开票效率,但无法识设备、操作的关联表达,对工作票的填写要求高。为此,本方法首先借助现有PLM预训练大语言模型对同义表达进行识别,基于模型识别错误的同义表达生成知识对话集,提高模型的专业理解能力;其次,基于工作票和人工标注的倒闸操作信息生成任务对话集,用于训练大语言模型的问答功能,可从输入的工作票中提取倒闸操作信息,并以设定的格式输出,可辅助提高开票效率。
[0008]在一种可能的实施方式中,对所述工作票库内的有效工作票数据进行名词实体和动词实体抽取,对所述名词实体和动词实体进行向量化转换后分析相关的聚类数据,获得多组映射对,通过多组映射对评估PLM预训练大语言模型的理解能力,基于评估结果为消极的映射对构建知识对话集;包括:通过NLP技术中的词性标注与命名实体识别任务对工作票库中的名词实体和动词实体进行标注和提取,存储于操作设备实体库;对所述名词实体和动词实体通过embedding模型进行向量化,对向量化后的名词实体和动词实体进行聚类分析,将相似度达到阈值的名词实体或动词实体组成映射对;将映射对输入PLM预训练大语言模型进行相似度评估,提取评估结果消极的映射对;基于评估结果消极的映射对构建知识对话集,用于后续对PLM预训练大语言模型进行微调训练以纠正模型的错误评估。
[0009]在一种可能的实施方式中,将映射对输入PLM预训练大语言模型进行相似度评估,提取评估结果消极的映射对;包括:基于映射对构建Prompt提示词并输入PLM预训练大语言模型,获得PLM预训练大语言模型的相似度评估结果,将PLM预训练大语言模型认为不相似的映射对作为评估结果消极的映射对。
[0010]在一种可能的实施方式中,对所述工作票库内的有效工作票进行人工标注操作信息,通过有效工作票和人工标注的操作信息构建任务对话集;包括:通过有效工作票生成具有推理逻辑的模型输入语句,通过人工标注的操作信息生成具有推理逻辑的模型输出语句,根据所述模型输入语句和模型输出语句生成任务对话集。
[0011]在一种可能的实施方式中,通过知识对话集和任务对话集构建训练语料和测试语料,将训练语料输入PLM预训练大语言模型进行指令精调,获得电力领域LLM模型;包括:在PLM预训练大语言模型中涉及矩阵相乘的结构处增加Lora结构,获得改进的PLM预训练大语言模型;按比例从所述知识对话集和所述任务对话集中选取训练语料和测试语料;通过所述训练语料对改进的PLM预训练大语言模型进行指令精调训练,获得回答获得高分的模型,作为电力领域LLM模型。
[0012]本申请还提供一种基于大语言模型提取倒闸操作信息的系统,包括:数据采集模块,用于获取工作票数据;电力领域LLM模型模块,用于训练电力领域LLM模型并将所述工作票数据输入电力领域LLM模型,获得倒闸操作信息;以及操作信息输出模块,用于输出倒闸操作信息;其中,所述电力领域LLM模型模块包括:数据预处理模块,用于收集历史工作票数据,对所述历史工作票数据进行清洗与拆分,提取有效工作票数据,对所述有效工作票数据进行词性分析和实体命名任务处理,将处理后的有效工作票数据存入工作票库;数据集构建模块,用于对所述工作票库内的有效工作票数据进行名词实体和动词实体抽取,对所述
名词实体和动词实体进行向量化转换后分析相关的聚类数据,获得多组映射对,通过多组映射对评估PLM预训练大语言模型的理解能力,基于评估结果为消极的映射对构建知识对话集;对所述工作票库内的有效工作票进行人工标注操作信息,通过有效工作票和人工标注的操作信息构建任务对话集;模型训练与精调模块,用于通过知识对话集和任务对话集构建训练语料和测试语料,将训练语料输入PLM预训练大语言模型进行指令精调,获得电力领域LLM模型;模型测试模块,用于将测试语料输入所述电力领域LLM模型验证准确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大语言模型提取倒闸操作信息的方法,其特征在于,包括:获取工作票数据,将所述工作票数据输入电力领域LLM模型,获取倒闸操作信息;其中,所述电力领域LLM模型通过如下方法得到:S1、收集历史工作票数据,对所述历史工作票数据进行清洗与拆分,提取有效工作票数据,对所述有效工作票数据进行词性分析和实体命名任务处理,将处理后的有效工作票数据存入工作票库;S2、对所述工作票库内的有效工作票数据进行名词实体和动词实体抽取,对所述名词实体和动词实体进行向量化转换后分析相关的聚类数据,获得多组映射对,通过多组映射对评估PLM预训练大语言模型的理解能力,基于评估结果为消极的映射对构建知识对话集;对所述工作票库内的有效工作票进行人工标注操作信息,通过有效工作票和人工标注的操作信息构建任务对话集;S3、通过知识对话集和任务对话集构建训练语料和测试语料,将训练语料输入PLM预训练大语言模型进行指令精调,获得电力领域LLM模型;S4、将测试语料输入所述电力领域LLM模型验证准确性。2.根据权利要求1所述的一种基于大语言模型提取倒闸操作信息的方法,其特征在于,对所述工作票库内的有效工作票数据进行名词实体和动词实体抽取,对所述名词实体和动词实体进行向量化转换后分析相关的聚类数据,获得多组映射对,通过多组映射对评估PLM预训练大语言模型的理解能力,基于评估结果为消极的映射对构建知识对话集;包括:通过NLP技术中的词性标注与命名实体识别任务对工作票库中的名词实体和动词实体进行标注和提取,存储于操作设备实体库;对所述名词实体和动词实体通过embedding模型进行向量化,对向量化后的名词实体和动词实体进行聚类分析,将相似度达到阈值的名词实体或动词实体组成映射对;将映射对输入PLM预训练大语言模型进行相似度评估,提取评估结果消极的映射对;基于评估结果消极的映射对构建知识对话集,用于后续对PLM预训练大语言模型进行微调训练以纠正模型的错误评估。3.根据权利要求2所述的一种基于大语言模型提取倒闸操作信息的方法,其特征在于,将映射对输入PLM预训练大语言模型进行相似度评估,提取评估结果消极的映射对;包括:基于映射对构建Prompt提示词并输入PLM预训练大语言模型,获得PLM预训练大语言模型的相似度评估结果,将PLM预训练大语言模型认为不相似的映射对作为评估结果消极的映射对。4.根据权利要求1所述的一种基于大语言模型提取倒闸操作信息的方法,其特征在于,对所述工作票库内的有效工作票进行人工标注操作信息,通过有效工作票和人工标注的操作信息构建任务对话集;包括:通过有效工作票生成具有推理逻辑的模型输入语句,通过人工标注的操作信息生成具有推理逻辑的模型输出语句,根据所述模型输入语句和模型输出语句生成任务对话集。5.根据权利要求1所述的一种基于大语言模型提取倒闸操作信息的方法,其特征在于,通过知识对话集和任务对话集构建训练语料和测试语料,将训练语料输入PLM预训练大语言模型进行指令精调,获得电力领域LLM模型;包括:在PLM预训练大语言模型中涉及矩阵相乘的结构处增加Lora结构,获得改进的PLM预训
练大语言模型;按比例从所述知识对话集和所述任务对话集中选取训练语料和测试语料;通过所述训练语料对改进的PLM预训练大语言模型进行指令精调训练...

【专利技术属性】
技术研发人员:何佳陈果累廖东明张翔汪洋
申请(专利权)人:四川金信石信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1