一种适用于电力领域的复合实体关系抽取方法技术

技术编号:43985779 阅读:15 留言:0更新日期:2025-01-10 20:08
本发明专利技术公开了一种适用于电力领域的复合实体关系抽取方法,涉及大语言模型领域,构建得到适用于大语言模型微调的NPICKG指令数据集;通过低秩适应的PEFT方法对大语言模型进行微调,以增强大语言模型在电力领域的信息抽取和自然语言理解能力,微调后的大语言模型采用基于上下文学习的实体与关系抽取增强方法,通过增强序列标注式命名实体识别模块执行序列标注形式的命名实体识别任务,随后利用识别出的实体通过适应性关系映射模块执行选择题形式的关系三元组抽取任务,最后输出三元组。使用本发明专利技术增强后的大语言模型在电力领域三元组抽取任务中,抽取实体与关系准确率以及效率平均提升了约56%,最高从10.57%提升到了70.95%。

【技术实现步骤摘要】

本专利技术涉及大语言模型领域,特别是涉及一种适用于电力领域的复合实体关系抽取方法


技术介绍

1、在人工智能和自然语言处理领域,大语言模型已经成为一种革命性的技术,它们通过学习海量文本数据,能够理解和生成人类语言,为各种应用提供支持。同时,大语言模型也已经在语言理解、文本生成、信息抽取等多个任务上展现出了卓越的性能。wan等人提出的gpt-re方法通过上下文学习的方式有效提升了通用领域关系三元组抽取,wang等人开发的基于指令微调的全面信息抽取框架instructuie也开创了大语言模型通用信息抽取的先河。

2、例如中国专利文献中,公开号为cn118093820a,公开日为2024年5月28日,名称为一种基于场景感知的大模型少样本上下文学习驱动的知识查询语句智能生成方法和系统,通过利用大型语言模型的上下文学习能力,实现在少量示例的基础上进行高效的知识查询语句生成。

3、尽管上述现有技术具有广泛的知识基础和强大的学习能力,它们在电力领域这样的高专业性
内,仍面临着理解深度和精确度不足的挑战。电力领域涉及复杂的技术术语、专业知识和本文档来自技高网...

【技术保护点】

1.一种适用于电力领域的复合实体关系抽取方法,其特征在于:包括如下步骤:

2.如权利要求1所述的一种适用于电力领域的复合实体关系抽取方法,其特征在于:所述S1步骤的具体步骤为,针对NPICKG数据集每一条数据,通过代码转换并构建了一系列指令数据,该系列指令数据中每条指令数据均分为指令部分和输出部分,其中指令部分包括任务描述、模式和输入三个字段。

3.如权利要求2所述的一种适用于电力领域的复合实体关系抽取方法,其特征在于:

4.如权利要求3所述的一种适用于电力领域的复合实体关系抽取方法,其特征在于:所述模式中每个JSON字符串中最多包含5种类型的SPO三...

【技术特征摘要】

1.一种适用于电力领域的复合实体关系抽取方法,其特征在于:包括如下步骤:

2.如权利要求1所述的一种适用于电力领域的复合实体关系抽取方法,其特征在于:所述s1步骤的具体步骤为,针对npickg数据集每一条数据,通过代码转换并构建了一系列指令数据,该系列指令数据中每条指令数据均分为指令部分和输出部分,其中指令部分包括任务描述、模式和输入三个字段。

3.如权利要求2所述的一种适用于电力领域的复合实体关系抽取方法,其特征在于:

4.如权利要求3所述的一种适用于电力领域的复合实体关系抽取方法,其特征在于:所述模式中每个json字符串中最多包含5种类型的spo三元组。

5.如权利要求1所述的一种适用于电力领域的复合实体关系抽取方法,其特征在于:所述s2步骤中微调的具体步骤为,

6.如权利要求1所述的一种适用于电力领域的复合实体关系抽取方法,其特征在于:所述s3步骤中,增强序列标注式实体识别模块执行序列标注形式的命名实体识别任务具体步骤为,首先构造提示prompt(*),面对任意指定的输入文本i,形成一个专门针对i设计的提示指令,标记为prompt(i);接着,将这个提示指令作为输入提交给大...

【专利技术属性】
技术研发人员:柴海波肖文静白亮王正杰宁树伟李玥田军李川唐健
申请(专利权)人:东方电气集团科学技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1