基于增量学习的大模型参数微调方法、装置、设备及介质制造方法及图纸

技术编号：38993598 阅读：17 留言：0更新日期：2023-10-07 10:24

本申请提供一种基于增量学习的大模型参数微调方法、装置、设备及介质，涉及文本分类及数字医疗技术领域。该方法通过数据大模型中各层任务子模型对任务数据进行数据预测处理，获得各层任务子模型的模型预测结果，实现对目标任务的多角度分析，从而完整提取目标任务的任务数据的特征，以提高医疗文本的识别准确性；根据任务数据的数据特征和权重计算公式，计算各层任务子模型对于目标任务的注意力权重，进一步地根据注意力权重，将各层任务子模型输出的模型预测结果进行加权计算，可以提取任务数据中的重要特征，降低非重要特征对于文本分类识别结果的影响，提高目标预测结果的准确性。提高目标预测结果的准确性。提高目标预测结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于增量学习的大模型参数微调方法、装置、设备及介质

[0001]本申请涉及文本分类及数字医疗
，尤其涉及一种基于增量学习的大模型参数微调方法、装置、设备及介质。

技术介绍

[0002]文本分类是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。当今的文本分类技术在某些场景下表现出色，但在医疗领域仍存在一些缺陷。
[0003]一方面，医学领域的专业术语和知识体系非常庞大和复杂，难以用传统机器学习方法进行精确建模。另一方面，医学文本中存在大量的噪声和类别不平衡问题，导致训练出的模型往往在少数类别上表现较差。
[0004]此外，现有的文本分类技术大多使用单一任务学习进行模型训练，在不同的任务之间缺乏共享和迁移能力，导致模型的复杂度高、泛化能力差。同时，传统的增量学习方法对数据的变化敏感，不能稳定地提升模型性能。
[0005]传统的微调医疗大模型方法中，将所有的任务都一起放到模型中训练，在实际应用中会出现以下问题：
[0006](1)每个任务的特征和难度不同，如果直接将所有任务一起训练，很容易出现“一哄而上”的情况，导致模型无法兼顾各种任务的性能。
[0007](2)在训练过程中，如果某些任务出现过拟合或欠拟合的情况，会影响整个模型的效果。
[0008](3)由于医疗数据纷繁复杂，传统的微调方法会存在识别某些医疗文本的问题，导致误诊及漏诊等严重后果。
[0009]因此，如何解决目前医学大模型对于多任务医疗文本的识别准确率低下成为亟待解决的技...

【技术保护点】

【技术特征摘要】
1.一种基于增量学习的大模型参数微调方法，其特征在于，所述方法包括：获取目标任务的任务数据；基于数据大模型中各层任务子模型，对所述任务数据进行数据预测处理，获得所述各层任务子模型输出的模型预测结果；基于权重计算公式和所述任务数据的数据特征，计算所述各层任务子模型对于所述目标任务的注意力权重；基于所述各层任务子模型对应的所述注意力权重，对所述各层任务子模型对应的所述模型预测结果进行加权计算，获得目标预测结果。2.根据权利要求1所述的基于增量学习的大模型参数微调方法，其特征在于，所述获取目标任务的任务数据之前，还包括：获取基础大模型以及至少一个模型任务对应的任务标签和任务数据，其中，所述基础大模型包括至少一个基础子模型；基于各所述任务标签对应的所述低秩矩阵以及各所述模型任务对应的所述任务数据，对所述基础子模型进行数据训练，获得各所述任务标签对应的所述任务子模型；基于所述任务子模型，对所述基础大模型中的所述基础子模型进行替换，获得所述数据大模型。3.根据权利要求2所述的基于增量学习的大模型参数微调方法，其特征在于，所述基于各所述任务标签对应的所述低秩矩阵以及各所述模型任务对应的所述任务数据，对所述基础子模型进行数据训练，获得各所述任务标签对应的所述任务子模型，包括：基于所述基础子模型的基础矩阵和所述低秩矩阵的矩阵乘积，获得多维权重矩阵；基于所述当前任务的数据特征，对所述多维权重矩阵中的所述低秩矩阵的权重参数进行调整，获得权重变化量；基于权重加权求和公式，对所述权重变化量和所述基础矩阵的基础权重进行加权求和计算，获得目标权重；基于所述目标权重，对所述基础子模型的所述多维权重矩阵进行参数迭代调整，获得所述任务子模型。4.根据权利要求3所述的基于增量学习的大模型参数微调方法，其特征在于，所述权重加权求和公式包括：其中，t为所述当前任务标签，N为当前迭代次数，是当前任务t的所述基础权重，是学习率，是所述权重变化量。5.根据权利要求1所述的基于增量学习的大模型参数微调方法，其特征在于，所述权重计算公式包括：其中，X是所述任务数据，T是任务数量，ω

【专利技术属性】
技术研发人员：李春宇，郝碧波，倪渊，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人