一种基于大模型的自动知识抽取方法、设备及存储介质技术

技术编号：41310947 阅读：34 留言：0更新日期：2024-05-13 14:54

本发明专利技术属于人工智能技术领域，涉及一种基于大模型的自动知识抽取方法、设备及存储介质，所述方法包括：构建自动知识抽取训练数据集，预处理基础数据集，并在其中加入知识抽取分析过程，形成所述自动知识抽取训练数据集；搭建自动知识抽取模型，其具有基础模型以及嵌入到基础模型中的关系抽取模块、主体抽取模块和事实抽取模块；利用自动知识抽取训练数据集中的训练数据分别对关系抽取模块、主体抽取模块和事实抽取模块进行微调；利用微调后的自动知识抽取模型对一段文本进行知识抽取。其在知识抽取的过程加入了知识抽取分析过程，使得抽取的知识具有很强的解释能力，能够完成文档级别的文本的知识抽取任务，同时使得模型便于后期不断拓展。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，涉及一种知识抽取方法、设备及存储介质，尤其涉及一种基于大模型的自动知识抽取方法、设备及存储介质。

技术介绍

1、传统的基于文本的知识抽取系统，核心思想是标签分类，例如通过bert模型，对实体或者实体之间的关系进行分类。但是，传统的基于标签分类思想的知识抽取系统，对所抽取的知识缺乏解释性，并且对于不同语境下的文本，泛化性欠缺，一旦将这些知识抽取系统应用于不同的语料中，其性能可能有大幅降低。

2、当前大型语言模型(llms)，如gpt-4、glm和llama等等，发展迅猛，逻辑分析能力得到了巨大的提升，使得通过这类大语言模型直接进行知识抽取成为可能。但是，当前的基于大语言模型的知识抽取系统依然不具备对抽取知识进行解释的能力。同时，对基于文档级别的多知识抽取还有短板，并且大语言模型在知识抽取过程中依赖模板，而这些模板存在诸多限制，例如在关系抽取任务中，将关系的选择键入模版中，导致可插入的关系数量选择较少。最后，当前的知识抽取模型，后期拓展难，不利于模型快速进行性能提升。

3、因此，针对上述现有技...

【技术保护点】

1.一种基于大模型的自动知识抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大模型的自动知识抽取方法，其特征在于，所述预处理基础数据集具体包括：

3.根据权利要求2所述的基于大模型的自动知识抽取方法，其特征在于，在对清洗和增强后的所述基础数据集进行关系数量的平衡时，共确定96个关系，并使得每个关系的数据数量为1000条。

4.根据权利要求3所述的基于大模型的自动知识抽取方法，其特征在于，通过以下方式获得所述知识抽取分析过程：对预处理后的所述基础数据集中的训练数据进行人工标注，并利用人工标注后的训练数据对大语言模型进行询问，由所述大语言...

【技术特征摘要】

1.一种基于大模型的自动知识抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大模型的自动知识抽取方法，其特征在于，所述预处理基础数据集具体包括：

4.根据权利要求3所述的基于大模型的自动知识抽取方法，其特征在于，通过以下方式获得所述知识抽取分析过程：对预处理后的所述基础数据集中的训练数据进行人工标注，并利用人工标注后的训练数据对大语言模型进行询问，由所述大语言模型生成所述知识抽取分析过程。

5.根据权利要求1-4中任一项所述的基于大模型的自动知识抽取方法...

【专利技术属性】
技术研发人员：薛理龙，刘潇，张鹏，
申请(专利权)人：北京智谱华章科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人