【技术实现步骤摘要】
本专利技术属于数据选择领域,具体涉及了一种重要性-多样性耦合的多模态大模型微调数据高效选择方法。
技术介绍
1、随着多模态大语言模型(multi-modal large language models,mllms)的快速发展,视觉指令微调已成为弥合模态鸿沟、提升模型任务适配性的核心手段。尽管大规模指令数据集显著增强了模型性能,但其固有的数据冗余性与计算密集性对资源受限场景构成严峻挑战。在此背景下,数据选择技术被寄望通过筛选高价值子集,在降低训练成本的同时维持模型性能。现有方法主要围绕两类核心目标展开:重要性导向方法通过量化样本对模型训练的贡献度筛选高价值样本,如梯度影响或损失值;多样性导向方法则通过特征空间聚类或分布覆盖策略确保数据集的全面性。尽管这些方法在文本领域已取得一定成效,但在多模态场景下仍面临显著挑战。
2、现有技术的核心缺陷体现在两方面:首先,现有数据选择方法普遍需要使用多模态大语言模型遍历整个原始数据集以提取样本重要性指标或多样性特征,例如通过全量前向传播获取梯度信息或执行特征编码。这种“全量预处理”机制导致数
...【技术保护点】
1.一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于,所述步骤S2具体为:
3.根据权利要求2所述的一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于,所述步骤S21具体为:
4.根据权利要求2所述的一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于:
5.根据权利要求1所述的一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于,所述步骤S3
...
【技术特征摘要】
1.一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于,所述步骤s2具体为:
3.根据权利要求2所述的一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于,所述步骤s21具体为:
4.根据权利要求2所述的一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于:
5.根据权利要求1所述的一种重要性-多样性耦合的多模态大模型微调数据高效选择方法,其特征在于,所述步骤s3具体为:
6.根据权利要求5所述的...
【专利技术属性】
技术研发人员:李环,钟鸣,闫熠辰,陈刚,寿黎但,陈珂,唐秀,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。