基于Sinkhorn算法的零样本任务增强方法及系统技术方案

技术编号:44401344 阅读:18 留言:0更新日期:2025-02-25 10:15
本发明专利技术涉及计算机视觉技术领域,公开了基于Sinkhorn算法的零样本任务增强方法及系统,方法包括:获取目标医学图文数据集;目标医学图文数据集包括查询集和目标集,查询集中的查询数据为文本数据,目标集中的目标数据为图片数据;计算查询集与目标集的相似度矩阵;对相似度矩阵进行Sinkhorn归一化,得到收敛后的吉布斯矩阵;根据收敛后的吉布斯矩阵得到目标枢纽值向量;根据相似度矩阵减去目标枢纽值向量,得到去枢纽的相似度矩阵;根据输入的查询数据和去枢纽的相似度矩阵得到对应的目标数据。本发明专利技术能够有效缓解枢纽性问题,同时给出了一种在测试时查询集分布未知情况下,能够对目标集中所有目标数据的枢纽值的精确估计的方法。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,尤其涉及基于sinkhorn算法的零样本任务增强方法及系统。


技术介绍

1、零样本任务是一项指让机器学习模型对未知数据直接进行推理,而无须进行再训练的任务。使用大模型,如大语言模型(large language model, 简称llm)或是视觉语言模型(vision-language model, 简称vlm),直接对用户数据进行推理,而无需让大模型拟合用户数据,即是典型的零样本任务。当前包括llm与vlm在内的大模型在表征数据时存在枢纽性问题(hubness problem),即实际检索中,目标集中一些目标会被频繁地被召回。这些被多次检索的目标被称为枢纽目标,而这些枢纽目标的出现会导致大模型的总体召回率不高,这种现象被称为枢纽问题。此枢纽性问题很大程度上会影响大模型在零样本任务的性能,如使用大模型对数据进行零样本分类任务时,很对数据会被错误地分类到极个别类中,从而使分类任务准确性不高;在使用大模型进行检索任务时,大模型会让个别目标被频繁地被检索到,而大部分目标被检索到的几率为0,从而造成较低的检索召回率。本专利技术致力于解决此本文档来自技高网...

【技术保护点】

1.基于Sinkhorn算法的零样本任务增强方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的基于Sinkhorn算法的零样本任务增强方法,其特征在于,当所述查询集中的查询数据数量等于1时,所述S2中,计算查询集与目标集的相似度矩阵包括:

3.根据权利要求2所述的基于Sinkhorn算法的零样本任务增强方法,其特征在于,当所述查询集中的查询数据数量等于1时,所述S4中,根据所述收敛后的吉布斯矩阵得到目标枢纽值向量,包括:

4.根据权利要求1所述的基于Sinkhorn算法的零样本任务增强方法,其特征在于,所述S3中,对所述相似度矩阵进行Sin...

【技术特征摘要】

1.基于sinkhorn算法的零样本任务增强方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的基于sinkhorn算法的零样本任务增强方法,其特征在于,当所述查询集中的查询数据数量等于1时,所述s2中,计算查询集与目标集的相似度矩阵包括:

3.根据权利要求2所述的基于sinkhorn算法的零样本任务增强方法,其特征在于,当所述查询集中的查询数据数量等于1时,所述s4中,根据所述收敛后的吉布斯矩阵得到目标枢纽值向量,包括:

4.根据权利要求1所述的基于sinkhorn算法的零样本任务增强方法,其特征在于,所述s3中,对所述相似度矩阵进行sinkhorn归一化,计算得到收敛后的吉布斯矩阵包括:

5.根据权利要求4所述的基...

【专利技术属性】
技术研发人员:王海帅潘正新方辛未池莲花侯素娟
申请(专利权)人:杭州心智医联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1