基于增量学习的大模型参数微调方法、装置、设备及介质制造方法及图纸

技术编号:38993598 阅读:17 留言:0更新日期:2023-10-07 10:24
本申请提供一种基于增量学习的大模型参数微调方法、装置、设备及介质,涉及文本分类及数字医疗技术领域。该方法通过数据大模型中各层任务子模型对任务数据进行数据预测处理,获得各层任务子模型的模型预测结果,实现对目标任务的多角度分析,从而完整提取目标任务的任务数据的特征,以提高医疗文本的识别准确性;根据任务数据的数据特征和权重计算公式,计算各层任务子模型对于目标任务的注意力权重,进一步地根据注意力权重,将各层任务子模型输出的模型预测结果进行加权计算,可以提取任务数据中的重要特征,降低非重要特征对于文本分类识别结果的影响,提高目标预测结果的准确性。提高目标预测结果的准确性。提高目标预测结果的准确性。

【技术实现步骤摘要】
基于增量学习的大模型参数微调方法、装置、设备及介质


[0001]本申请涉及文本分类及数字医疗
,尤其涉及一种基于增量学习的大模型参数微调方法、装置、设备及介质。

技术介绍

[0002]文本分类是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。当今的文本分类技术在某些场景下表现出色,但在医疗领域仍存在一些缺陷。
[0003]一方面,医学领域的专业术语和知识体系非常庞大和复杂,难以用传统机器学习方法进行精确建模。另一方面,医学文本中存在大量的噪声和类别不平衡问题,导致训练出的模型往往在少数类别上表现较差。
[0004]此外,现有的文本分类技术大多使用单一任务学习进行模型训练,在不同的任务之间缺乏共享和迁移能力,导致模型的复杂度高、泛化能力差。同时,传统的增量学习方法对数据的变化敏感,不能稳定地提升模型性能。
[0005]传统的微调医疗大模型方法中,将所有的任务都一起放到模型中训练,在实际应用中会出现以下问题:
[0006](1)每个任务的特征和难度不同,如果直接将所有任务一起训练,很容易出现“一哄而上”的情况,导致模型无法兼顾各种任务的性能。
[0007](2)在训练过程中,如果某些任务出现过拟合或欠拟合的情况,会影响整个模型的效果。
[0008](3)由于医疗数据纷繁复杂,传统的微调方法会存在识别某些医疗文本的问题,导致误诊及漏诊等严重后果。
[0009]因此,如何解决目前医学大模型对于多任务医疗文本的识别准确率低下成为亟待解决的技术问题。

技术实现思路

[0010]本申请提供了一种基于增量学习的大模型参数微调方法、装置、设备及存储介质,旨在医学大模型对于多任务医疗文本的识别准确率。
[0011]第一方面,本申请提供一种基于增量学习的大模型参数微调方法,所述方法包括:
[0012]获取目标任务的任务数据;
[0013]基于数据大模型中各层任务子模型,对所述任务数据进行数据预测处理,获得所述各层任务子模型输出的模型预测结果;
[0014]基于权重计算公式和所述任务数据的数据特征,计算所述各层任务子模型对于所述目标任务的注意力权重;
[0015]基于所述各层任务子模型对应的所述注意力权重,对所述各层任务子模型对应的所述模型预测结果进行加权计算,获得目标预测结果。
[0016]第二方面,本申请还提供一种基于增量学习的大模型参数微调方法装置,所述基于增量学习的大模型参数微调方法装置包括:
[0017]任务数据获取模块,用于获取目标任务的任务数据;
[0018]数据处理模块,用于基于数据大模型中各层任务子模型,对所述任务数据进行数据预测处理,获得所述各层任务子模型输出的模型预测结果;
[0019]注意力权重计算模块,用于基于权重计算公式和所述任务数据的数据特征,计算所述各层任务子模型对于所述目标任务的注意力权重;
[0020]目标预测结果获得模块,用于基于所述各层任务子模型对应的所述注意力权重,对所述各层任务子模型对应的所述模型预测结果进行加权计算,获得目标预测结果。
[0021]第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的基于增量学习的大模型参数微调方法的步骤。
[0022]第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的基于增量学习的大模型参数微调方法的步骤。
[0023]本申请提供一种基于增量学习的大模型参数微调方法、装置、设备及存储介质,本申请方法包括获取目标任务的任务数据;基于数据大模型中各层任务子模型,对所述任务数据进行数据预测处理,获得所述各层任务子模型输出的模型预测结果;基于权重计算公式和所述任务数据的数据特征,计算所述各层任务子模型对于所述目标任务的注意力权重;基于所述各层任务子模型对应的所述注意力权重,对所述各层任务子模型对应的所述模型预测结果进行加权计算,获得目标预测结果。通过上述方式,通过数据大模型中各层任务子模型对任务数据进行数据预测处理,获得各层任务子模型的模型预测结果,实现对目标任务的多角度分析,从而完整提取目标任务的任务数据的特征,以提高医疗文本的识别准确性;根据任务数据的数据特征和权重计算公式,计算各层任务子模型对于目标任务的注意力权重,进一步地根据注意力权重,将各层任务子模型输出的模型预测结果进行加权计算,可以提取任务数据中的重要特征,降低非重要特征对于文本分类识别结果的影响,提高目标预测结果的准确性。
附图说明
[0024]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1为本申请的实施例提供的一种基于增量学习的大模型参数微调系统;
[0026]图2为本申请提供的一种基于增量学习的大模型参数微调方法第一实施例的流程示意图;
[0027]图3为本申请提供的一种基于增量学习的大模型参数微调方法第二实施例的流程示意图;
[0028]图4为本申请提供的一种基于增量学习的大模型参数微调方法第三实施例的流程示意图;
[0029]图5为本申请提供的一种LoRA模型的低秩矩阵结构示意图;
[0030]图6为本申请提供的一种基于增量学习的大模型参数微调方法第四实施例的流程示意图;
[0031]图7是本申请提供的一种基于增量学习的大模型参数微调装置第一实施例的结构示意图;
[0032]图8是本申请实施例提供的一种计算机设备的结构示意性框图。
[0033]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0035]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0036]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0037]本申请的实施例提供了一种基于增量学习的大模型参数微调方法、装置、设备及存储介质,用于根据目标任务的数据特征,对多层任务子模型的模型预测结果进行加权融合,提高数据大模型对于目标任务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于增量学习的大模型参数微调方法,其特征在于,所述方法包括:获取目标任务的任务数据;基于数据大模型中各层任务子模型,对所述任务数据进行数据预测处理,获得所述各层任务子模型输出的模型预测结果;基于权重计算公式和所述任务数据的数据特征,计算所述各层任务子模型对于所述目标任务的注意力权重;基于所述各层任务子模型对应的所述注意力权重,对所述各层任务子模型对应的所述模型预测结果进行加权计算,获得目标预测结果。2.根据权利要求1所述的基于增量学习的大模型参数微调方法,其特征在于,所述获取目标任务的任务数据之前,还包括:获取基础大模型以及至少一个模型任务对应的任务标签和任务数据,其中,所述基础大模型包括至少一个基础子模型;基于各所述任务标签对应的所述低秩矩阵以及各所述模型任务对应的所述任务数据,对所述基础子模型进行数据训练,获得各所述任务标签对应的所述任务子模型;基于所述任务子模型,对所述基础大模型中的所述基础子模型进行替换,获得所述数据大模型。3.根据权利要求2所述的基于增量学习的大模型参数微调方法,其特征在于,所述基于各所述任务标签对应的所述低秩矩阵以及各所述模型任务对应的所述任务数据,对所述基础子模型进行数据训练,获得各所述任务标签对应的所述任务子模型,包括:基于所述基础子模型的基础矩阵和所述低秩矩阵的矩阵乘积,获得多维权重矩阵;基于所述当前任务的数据特征,对所述多维权重矩阵中的所述低秩矩阵的权重参数进行调整,获得权重变化量;基于权重加权求和公式,对所述权重变化量和所述基础矩阵的基础权重进行加权求和计算,获得目标权重;基于所述目标权重,对所述基础子模型的所述多维权重矩阵进行参数迭代调整,获得所述任务子模型。4.根据权利要求3所述的基于增量学习的大模型参数微调方法,其特征在于,所述权重加权求和公式包括:其中,t为所述当前任务标签,N为当前迭代次数,是当前任务t的所述基础权重,是学习率,是所述权重变化量。5.根据权利要求1所述的基于增量学习的大模型参数微调方法,其特征在于,所述权重计算公式包括:其中,X是所述任务数据,T是任务数量,ω

【专利技术属性】
技术研发人员:李春宇郝碧波倪渊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1