用于利用针对鲁棒的少样本图像学习的多个描述性特征的系统和方法技术方案

技术编号:43890634 阅读:23 留言:0更新日期:2025-01-03 13:06
一种包括机器学习网络的系统,包括控制器,控制器被配置为:利用在包括文本编码器和图像编码器的所述机器学习网络处输出的图像‑文本相似性矩阵处指派的数值,利用稀疏逻辑回归来更新所述机器学习网络的未经训练层的参数以生成稀疏逻辑回归层,其中所述图像‑文本相似性矩阵与在所述控制器处接收的多个输入图像相关联,冻结所述稀疏逻辑回归层的包括零值的一个或多个条目,在(1)所述图像编码器和(2)所述稀疏逻辑回归层处的一个或多个未冻结条目处运行多个输入图像,以及响应于所述多个输入图像的运行,更新所述图像编码器的参数以及与一个或多个未冻结条目相关联的参数,以及输出经调节的机器学习模型,直到阈值被满足。

【技术实现步骤摘要】

本公开涉及一种机器学习网络,包括利用少样本图像学习的机器学习网络。


技术介绍

1、自监督视觉语言模型(vlm)(如对比语言-图像预训练(clip))可以经由对比训练来创建对准的图像和文本编码器。与传统训练的分类网络不同,这种对准通过用手工制作的输入(如“{}的照片”)来提示文本编码器、然后利用输入图像嵌入经由最大内积来预测目标从而实现零样本图像分类。然而,针对零样本学习选择有效的提示在很大程度上仍然是即席的(ad-hoc)过程:一些系统已经添加了若干提示,如“卡通{}”或“{}的艺术(art)”,旨在改进imagenet-r性能,从而也改进标准imagenet准确性。这已经导致了尝试从语言模型中自动提取相关提示的工作,包括使用这些模型来提取多个视觉描述符、然后使用这些视觉描述的平均预测来对图像进行分类的工作。

2、然而,在其中少量训练数据可用的少样本设置中,许多技术可以进一步改进分类器性能,这超过了单独的零样本提示。例如,经由线性探测(probing)或其他方法(包括在零样本和经微调的分类器之间进行插值以实现更好的分布外鲁棒性的方法)来微调零样本文档来自技高网...

【技术保护点】

1.一种用于调节预训练机器学习网络的计算机实现的方法,所述计算机实现的方法包括以下步骤:

2.根据权利要求1所述的方法,其中所述文本编码器是对比语言-图像预训练(CLIP)文本编码器,并且所述图像编码器是CLIP图像编码器。

3.根据权利要求1所述的方法,其中所述参数响应于神经网络优化算法来更新。

4.根据权利要求1所述的方法,其中所述阈值是迭代次数。

5.根据权利要求1所述的方法,其中所述阈值是收敛阈值。

6.根据权利要求1所述的方法,其中所述大语言模型是大语言模型元AI(LLaMA)。

7.根据权利要求1所述的方...

【技术特征摘要】

1.一种用于调节预训练机器学习网络的计算机实现的方法,所述计算机实现的方法包括以下步骤:

2.根据权利要求1所述的方法,其中所述文本编码器是对比语言-图像预训练(clip)文本编码器,并且所述图像编码器是clip图像编码器。

3.根据权利要求1所述的方法,其中所述参数响应于神经网络优化算法来更新。

4.根据权利要求1所述的方法,其中所述阈值是迭代次数。

5.根据权利要求1所述的方法,其中所述阈值是收敛阈值。

6.根据权利要求1所述的方法,其中所述大语言模型是大语言模型元ai(llama)。

7.根据权利要求1所述的方法,其中所述图像-文本相似性矩阵是每个图像的独热编码的矩阵。

8.一种用于调节预训练机器学习网络的计算机实现的方法,所述计算机实现的方法包括以下步骤:

9.根据权利要求8所述的方法,其中经调节的机器学习模型是相对于所述多个输入图像被调节的。

10.根据权利要求8所述的方法,其中所述输入图像是视频、图片、雷达、声呐、声音或其他图像信息。

11.根据权利要求8所述的方法,其中所述llm包括与所述llm相关...

【专利技术属性】
技术研发人员:A·布莱尔D·维尔莫特J·Z·柯尔特Z·冯
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1