【技术实现步骤摘要】
本专利技术属于人工智能,涉及一种知识抽取方法、设备及存储介质,尤其涉及一种基于大模型的自动知识抽取方法、设备及存储介质。
技术介绍
1、传统的基于文本的知识抽取系统,核心思想是标签分类,例如通过bert模型,对实体或者实体之间的关系进行分类。但是,传统的基于标签分类思想的知识抽取系统,对所抽取的知识缺乏解释性,并且对于不同语境下的文本,泛化性欠缺,一旦将这些知识抽取系统应用于不同的语料中,其性能可能有大幅降低。
2、当前大型语言模型(llms),如gpt-4、glm和llama等等,发展迅猛,逻辑分析能力得到了巨大的提升,使得通过这类大语言模型直接进行知识抽取成为可能。但是,当前的基于大语言模型的知识抽取系统依然不具备对抽取知识进行解释的能力。同时,对基于文档级别的多知识抽取还有短板,并且大语言模型在知识抽取过程中依赖模板,而这些模板存在诸多限制,例如在关系抽取任务中,将关系的选择键入模版中,导致可插入的关系数量选择较少。最后,当前的知识抽取模型,后期拓展难,不利于模型快速进行性能提升。
3、因此,针对上述现有技
...【技术保护点】
1.一种基于大模型的自动知识抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大模型的自动知识抽取方法,其特征在于,所述预处理基础数据集具体包括:
3.根据权利要求2所述的基于大模型的自动知识抽取方法,其特征在于,在对清洗和增强后的所述基础数据集进行关系数量的平衡时,共确定96个关系,并使得每个关系的数据数量为1000条。
4.根据权利要求3所述的基于大模型的自动知识抽取方法,其特征在于,通过以下方式获得所述知识抽取分析过程:对预处理后的所述基础数据集中的训练数据进行人工标注,并利用人工标注后的训练数据对大语言模型进
...【技术特征摘要】
1.一种基于大模型的自动知识抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大模型的自动知识抽取方法,其特征在于,所述预处理基础数据集具体包括:
3.根据权利要求2所述的基于大模型的自动知识抽取方法,其特征在于,在对清洗和增强后的所述基础数据集进行关系数量的平衡时,共确定96个关系,并使得每个关系的数据数量为1000条。
4.根据权利要求3所述的基于大模型的自动知识抽取方法,其特征在于,通过以下方式获得所述知识抽取分析过程:对预处理后的所述基础数据集中的训练数据进行人工标注,并利用人工标注后的训练数据对大语言模型进行询问,由所述大语言模型生成所述知识抽取分析过程。
5.根据权利要求1-4中任一项所述的基于大模型的自动知识抽取方法...
【专利技术属性】
技术研发人员:薛理龙,刘潇,张鹏,
申请(专利权)人:北京智谱华章科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。