多模态大模型微调方法技术

技术编号：39514268 阅读：7 留言：0更新日期：2023-11-25 18:51

本发明专利技术实施例公开了多模态大模型微调方法

全部详细技术资料下载

【技术实现步骤摘要】
多模态大模型微调方法、装置、计算机设备及存储介质

[0001]本专利技术涉及模型调整方法，更具体地说是指多模态大模型微调方法
、
装置
、
计算机设备及存储介质
。

技术介绍

[0002]近年来，多模态生成式大模型在机器学习领域引起了广泛的关注和研究，并取得了显著的突破，已广泛应用于各行各业
。
当前真正落地的多模态生成式大模型多为通用大模型，通过使用大量公开数据集训练使其具备较为严密的逻辑推理能力，但缺乏垂直领域知识，直接应用于垂直领域时，其性能无法满足业务需求，需要使用垂直领域的数据进行微调，提升大模型对于垂直领域应用的性能
。
然而，由于垂直领域的有效数据较少，使用少量数据对多模态生成式大模型进行微调会破坏生成式大模型原有的逻辑推理能力，产生严重的模型幻想问题
。
模型幻想是指模型对数据进行推理归纳时，会输出数据中不存在的信息，这种现象严重阻碍了生成式大模型在现实场景中的应用
。
[0003]现有的解决方案有两种，一种是将产生了幻想的数据样本加入到模型进行训练更新，让模型修正自己的输出，然而，这种方法需要人工不断收集数据，耗费大量人力物力，效率较低；第二种是在模型输入层面，对指令输入进行限定，明确要求生成式大模型不要生成和数据无关的内容，然而，指令限定通常对通用领域生成式大模型有效，由于垂直领域大模型需要对模型参数微调，参数微调会极大降低指令的效果，无法减缓模型幻想的问题
。
[0004]因此...

【技术保护点】

【技术特征摘要】
1.
多模态大模型微调方法，其特征在于，包括：获取设备缺陷
、
环境隐患
、
人员违规监测相关的训练数据；对所述训练数据进行处理和分析，以得到处理结果；对分布不均衡且数量不符合要求的训练数据进行数据扩充，并与所述处理结果进行组合，以得到扩充结果；采用扩充结果对多模态大模型进行训练和微调，以得到检测模型；利用所述检测模型进行测试和推理
。2.
根据权利要求1所述的多模态大模型微调方法，其特征在于，所述对所述训练数据进行处理和分析，以得到处理结果，包括：对所述训练数据根据具体任务所制定的标注规范进行标注，以得到标注结果；对标注结果按照不同维度进行统计分析，以得到处理结果
。3.
根据权利要求1所述的多模态大模型微调方法，其特征在于，所述对分布不均衡且数量不符合要求的训练数据进行数据扩充，并与所述处理结果进行组合，以得到扩充结果，包括：对分布不均衡且数量不符合要求的训练数据使用生成式数据扩充方法进行数据扩充，以得到扩充数据生成结果；将所述扩充数据生成结果与所述处理结果结合形成扩充结果
。4.
根据权利要求3所述的多模态大模型微调方法，其特征在于，所述对分布不均衡且数量不符合要求的训练数据使用生成式数据扩充方法进行数据扩充，以得到扩充数据生成结果，包括：对分布不均衡且数量不符合要求的训练数据使用文本描述场景，以得到描述结果；将所述描述结果放入文字生成数据的模型中生成对应的场景数据，以得到扩充数据生成结果
。5.
根据权利要求3所述的多模态大模型微调方法，其特征在于，所述对分布不均衡且数量不符合要求的训练数据使用生成式数据扩充方法进行数据扩充，以得到扩充数据生成结果，包括：对分布不均衡且数量不符合要求的训练数据采用数据修正的生成式数据扩充方法进行数据扩充，以得到扩充数据生成结果
。6....

【专利技术属性】
技术研发人员：豆泽阳，甘家旭，庞磊，蒋阳，
申请(专利权)人：珠高智能科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人