System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型的自动知识抽取方法、设备及存储介质技术_技高网

一种基于大模型的自动知识抽取方法、设备及存储介质技术

技术编号:41310947 阅读:5 留言:0更新日期:2024-05-13 14:54
本发明专利技术属于人工智能技术领域,涉及一种基于大模型的自动知识抽取方法、设备及存储介质,所述方法包括:构建自动知识抽取训练数据集,预处理基础数据集,并在其中加入知识抽取分析过程,形成所述自动知识抽取训练数据集;搭建自动知识抽取模型,其具有基础模型以及嵌入到基础模型中的关系抽取模块、主体抽取模块和事实抽取模块;利用自动知识抽取训练数据集中的训练数据分别对关系抽取模块、主体抽取模块和事实抽取模块进行微调;利用微调后的自动知识抽取模型对一段文本进行知识抽取。其在知识抽取的过程加入了知识抽取分析过程,使得抽取的知识具有很强的解释能力,能够完成文档级别的文本的知识抽取任务,同时使得模型便于后期不断拓展。

【技术实现步骤摘要】

本专利技术属于人工智能,涉及一种知识抽取方法、设备及存储介质,尤其涉及一种基于大模型的自动知识抽取方法、设备及存储介质


技术介绍

1、传统的基于文本的知识抽取系统,核心思想是标签分类,例如通过bert模型,对实体或者实体之间的关系进行分类。但是,传统的基于标签分类思想的知识抽取系统,对所抽取的知识缺乏解释性,并且对于不同语境下的文本,泛化性欠缺,一旦将这些知识抽取系统应用于不同的语料中,其性能可能有大幅降低。

2、当前大型语言模型(llms),如gpt-4、glm和llama等等,发展迅猛,逻辑分析能力得到了巨大的提升,使得通过这类大语言模型直接进行知识抽取成为可能。但是,当前的基于大语言模型的知识抽取系统依然不具备对抽取知识进行解释的能力。同时,对基于文档级别的多知识抽取还有短板,并且大语言模型在知识抽取过程中依赖模板,而这些模板存在诸多限制,例如在关系抽取任务中,将关系的选择键入模版中,导致可插入的关系数量选择较少。最后,当前的知识抽取模型,后期拓展难,不利于模型快速进行性能提升。

3、因此,针对上述现有技术中存在的缺陷,需要研发一种新型的基于大模型的自动知识抽取方法。


技术实现思路

1、为了克服现有技术的缺陷,本专利技术提出一种基于大模型的自动知识抽取方法、设备及存储介质,其在知识抽取的过程加入了知识抽取分析过程,使得抽取的知识具有很强的解释能力,能够完成文档级别的文本的知识抽取任务,同时使得自动知识抽取模型便于后期不断拓展。

2、为了实现上述目的,本专利技术提供如下技术方案:

3、一种基于大模型的自动知识抽取方法,其特征在于,包括以下步骤:

4、构建自动知识抽取训练数据集:预处理基础数据集,并在预处理后的所述基础数据集中加入知识抽取分析过程,形成所述自动知识抽取训练数据集;

5、搭建自动知识抽取模型,所述自动知识抽取模型具有基础模型以及嵌入到所述基础模型中的关系抽取模块、主体抽取模块和事实抽取模块;

6、微调所述自动知识抽取模型,利用所述自动知识抽取训练数据集中的训练数据分别对所述关系抽取模块、主体抽取模块和事实抽取模块进行微调;

7、利用微调后的所述自动知识抽取模型对一段文本进行知识抽取。

8、优选地,所述预处理基础数据集具体包括:

9、以现有的文档级关系抽取数据集作为基础数据集;

10、对所述基础数据集进行清洗和增强;

11、对清洗和增强后的所述基础数据集进行关系数量的平衡,以获得预处理后的所述基础数据集。

12、优选地,在对清洗和增强后的所述基础数据集进行关系数量的平衡时,共确定96个关系,并使得每个关系的数据数量为1000条。

13、优选地,通过以下方式获得所述知识抽取分析过程:对预处理后的所述基础数据集中的训练数据进行人工标注,并利用人工标注后的训练数据对大语言模型进行询问,由所述大语言模型生成所述知识抽取分析过程。

14、优选地,分别采用一个lora模型作为所述关系抽取模块、主体抽取模块和事实抽取模块。

15、优选地,微调所述自动知识抽取模型时,将所述自动知识抽取训练数据集中的训练数据分成三部分,采用参数高效微调方法分别对所述关系抽取模块、主体抽取模块和事实抽取模块进行微调。

16、优选地,利用所述自动知识抽取模型对一段文本进行知识抽取具体包括:

17、将一段文本输入到所述自动知识抽取模型中,由所述关系抽取模块抽取出所述一段文本中的所有关系;

18、将所述关系抽取模块抽取出的每个关系以及所述一段文本都输入到所述自动知识抽取模型中,由所述主体抽取模块抽取出每个关系中的主体;

19、将所述关系抽取模块抽取出的每个关系、所述主体抽取模块抽取出的每个关系中的主体以及所述一段文本都输入到所述自动知识抽取模型中,由所述事实抽取模块抽取出每个关系中的事实以及生成每个关系对应的知识抽取分析过程;

20、再将所述关系抽取模块抽取出的每个关系、所述主体抽取模块抽取出的每个关系中的主体、所述事实抽取模块抽取出的每个关系中的事实和生成的每个关系对应的知识抽取分析过程以及所述一段文本都输入到所述自动知识抽取模型中,由所述自动知识抽取模型针对每个关系分别形成一个包含关系、主体和事实的知识三元组。

21、此外,本专利技术还提供一种基于大模型的自动知识抽取设备,其特征在于,包括:

22、一个或多个处理器;

23、存储器,用于存储一个或多个程序;

24、当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的基于大模型的自动知识抽取方法。

25、最后,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的基于大模型的自动知识抽取方法中的步骤。

26、与现有技术相比,本专利技术的基于大模型的自动知识抽取方法、设备及存储介质具有如下有益技术效果中的一者或多者:

27、1、本专利技术在知识抽取的过程加入了知识抽取分析过程,使得模型对抽取的知识具有很强的解释能力,能够完成文档级别的文本的知识抽取任务。

28、2、本专利技术重新设计了知识抽取的过程,按照人类思维模式,确定关系-主体-事实的三步抽取方式,确保知识抽取的准确性。

29、3、本专利技术通过参数高效的模型训练思想,利用lora模型,将三个抽取过程分别用单独的lora模型进行实现,方便后期对模型性能进行进一步提升。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的自动知识抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大模型的自动知识抽取方法,其特征在于,所述预处理基础数据集具体包括:

3.根据权利要求2所述的基于大模型的自动知识抽取方法,其特征在于,在对清洗和增强后的所述基础数据集进行关系数量的平衡时,共确定96个关系,并使得每个关系的数据数量为1000条。

4.根据权利要求3所述的基于大模型的自动知识抽取方法,其特征在于,通过以下方式获得所述知识抽取分析过程:对预处理后的所述基础数据集中的训练数据进行人工标注,并利用人工标注后的训练数据对大语言模型进行询问,由所述大语言模型生成所述知识抽取分析过程。

5.根据权利要求1-4中任一项所述的基于大模型的自动知识抽取方法,其特征在于,分别采用一个LoRA模型作为所述关系抽取模块、主体抽取模块和事实抽取模块。

6.根据权利要求5所述的基于大模型的自动知识抽取方法,其特征在于,微调所述自动知识抽取模型时,将所述自动知识抽取训练数据集中的训练数据分成三部分,采用参数高效微调方法分别对所述关系抽取模块、主体抽取模块和事实抽取模块进行微调。

7.根据权利要求6所述的基于大模型的自动知识抽取方法,其特征在于,利用所述自动知识抽取模型对一段文本进行知识抽取具体包括:

8.一种基于大模型的自动知识抽取设备,其特征在于,包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于大模型的自动知识抽取方法中的步骤。

...

【技术特征摘要】

1.一种基于大模型的自动知识抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大模型的自动知识抽取方法,其特征在于,所述预处理基础数据集具体包括:

3.根据权利要求2所述的基于大模型的自动知识抽取方法,其特征在于,在对清洗和增强后的所述基础数据集进行关系数量的平衡时,共确定96个关系,并使得每个关系的数据数量为1000条。

4.根据权利要求3所述的基于大模型的自动知识抽取方法,其特征在于,通过以下方式获得所述知识抽取分析过程:对预处理后的所述基础数据集中的训练数据进行人工标注,并利用人工标注后的训练数据对大语言模型进行询问,由所述大语言模型生成所述知识抽取分析过程。

5.根据权利要求1-4中任一项所述的基于大模型的自动知识抽取方法...

【专利技术属性】
技术研发人员:薛理龙刘潇张鹏
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1