一种基于领域数据配比的大语言模型知识注入方法技术

技术编号:44980375 阅读:13 留言:0更新日期:2025-04-15 17:00
本发明专利技术涉及一种基于领域数据配比的大语言模型知识注入方法,属于大语言模型、领域知识、自然语言处理技术领域。本发明专利技术设计了一个自我监督的持续预训练框架,该框架能够在不增加额外人工标注成本的情况下,利用选定的知识对LLMs进行知识增强;提出了一个基于同质性度量的知识筛选机制,用于从大规模知识图谱中精选与目标任务相关的高质量知识,有效提升了LLMs的领域感知。在多个低资源垂直领域的NER任务上进行了广泛的实验,实验结果验证了本方法的有效性,尤其是在提升模型对复杂实体类型识别能力方面表现出色。

【技术实现步骤摘要】

本专利技术属于大语言模型、领域知识、自然语言处理,具体涉及一种基于领域数据配比的大语言模型知识注入方法


技术介绍

1、大语言模型上的持续预训练已被广泛用于扩展模型对特定下游领域(例如,数学和代码)的基本理解。对于特定领域知识大语言模型的持续预训练,一个重要的问题是如何选择一般语料库与下游领域语料库之间的最佳混合比例。现有方法通常采用人工对一组混合比例进行网格搜索,耗费大量的gpu训练开销。此外,我们不能保证所选择的比例对于特定领域是最优的。


技术实现思路

1、(一)要解决的技术问题

2、考虑到真实网络环境中领域知识的复杂性,当前llms在处理垂直领域或低资源语言的ner任务时,常因缺乏足够的知识而表现不佳,因此本专利技术提出了一种大语言模型知识注入方法。

3、(二)技术方案

4、为了解决上述技术问题,本专利技术提供了一种基于领域数据配比的大语言模型知识注入方法,包括以下步骤:

5、步骤一:知识数据构建:

6、首先通过基于本体的事实性检测框架onto本文档来自技高网...

【技术保护点】

1.一种基于领域数据配比的大语言模型知识注入方法,其特征在于,包括以下步骤:

2.如权利要求2所述的方法,其特征在于,步骤二中,基于一种本体驱动的知识过滤策略实现自然语言文本过滤。

3.如权利要求1所述的方法,其特征在于,步骤二中,基于一种本体驱动的知识过滤策略实现自然语言文本过滤的方法具体为:

4.如权利要求3所述的方法,其特征在于,步骤三中,设D代表获得的筛选后的自然语言文本数据集,利用参数微调方法来优化知识注入目标函数L(θLLMs),表述为:

5.如权利要求4所述的方法,其特征在于,最后用参数更新后的LLMsθ′LLMs完成命名实体...

【技术特征摘要】

1.一种基于领域数据配比的大语言模型知识注入方法,其特征在于,包括以下步骤:

2.如权利要求2所述的方法,其特征在于,步骤二中,基于一种本体驱动的知识过滤策略实现自然语言文本过滤。

3.如权利要求1所述的方法,其特征在于,步骤二中,基于一种本体驱动的知识过滤策略实现自然语言文本过滤的方法具体为:

4.如权利要求3所述的方法,其特征在于,步骤三中,设d代表获得的筛选后的自然语言文本数据集,利用参数微调方法来优化知识注入目标函数l(θllms),表述为:

5.如权利...

【专利技术属性】
技术研发人员:杨雨婷刘琦邹华懿尤宝鑫王瑞田宗凯王坤龙陶凌云
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1