基于Sinkhorn算法的零样本任务增强方法及系统技术方案

技术编号：44401344 阅读：18 留言：0更新日期：2025-02-25 10:15

本发明专利技术涉及计算机视觉技术领域，公开了基于Sinkhorn算法的零样本任务增强方法及系统，方法包括：获取目标医学图文数据集；目标医学图文数据集包括查询集和目标集，查询集中的查询数据为文本数据，目标集中的目标数据为图片数据；计算查询集与目标集的相似度矩阵；对相似度矩阵进行Sinkhorn归一化，得到收敛后的吉布斯矩阵；根据收敛后的吉布斯矩阵得到目标枢纽值向量；根据相似度矩阵减去目标枢纽值向量，得到去枢纽的相似度矩阵；根据输入的查询数据和去枢纽的相似度矩阵得到对应的目标数据。本发明专利技术能够有效缓解枢纽性问题，同时给出了一种在测试时查询集分布未知情况下，能够对目标集中所有目标数据的枢纽值的精确估计的方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其涉及基于sinkhorn算法的零样本任务增强方法及系统。

技术介绍

1、零样本任务是一项指让机器学习模型对未知数据直接进行推理，而无须进行再训练的任务。使用大模型，如大语言模型（large language model, 简称llm）或是视觉语言模型（vision-language model, 简称vlm），直接对用户数据进行推理，而无需让大模型拟合用户数据，即是典型的零样本任务。当前包括llm与vlm在内的大模型在表征数据时存在枢纽性问题（hubness problem），即实际检索中，目标集中一些目标会被频繁地被召回。这些被多次检索的目标被称为枢纽目标，而这些枢纽目标的出现会导致大模型的总体召回率不高，这种现象被称为枢纽问题。此枢纽性问题很大程度上会影响大模型在零样本任务的性能，如使用大模型对数据进行零样本分类任务时，很对数据会被错误地分类到极个别类中，从而使分类任务准确性不高；在使用大模型进行检索任务时，大模型会让个别目标被频繁地被检索到，而大部分目标被检索到的几率为0，从而造成较低的检索召回率。本...

【技术保护点】

1.基于Sinkhorn算法的零样本任务增强方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的基于Sinkhorn算法的零样本任务增强方法，其特征在于，当所述查询集中的查询数据数量等于1时，所述S2中，计算查询集与目标集的相似度矩阵包括：

3.根据权利要求2所述的基于Sinkhorn算法的零样本任务增强方法，其特征在于，当所述查询集中的查询数据数量等于1时，所述S4中，根据所述收敛后的吉布斯矩阵得到目标枢纽值向量，包括：

4.根据权利要求1所述的基于Sinkhorn算法的零样本任务增强方法，其特征在于，所述S3中，对所述相似度矩阵进行Sin...

【技术特征摘要】

1.基于sinkhorn算法的零样本任务增强方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的基于sinkhorn算法的零样本任务增强方法，其特征在于，当所述查询集中的查询数据数量等于1时，所述s2中，计算查询集与目标集的相似度矩阵包括：

3.根据权利要求2所述的基于sinkhorn算法的零样本任务增强方法，其特征在于，当所述查询集中的查询数据数量等于1时，所述s4中，根据所述收敛后的吉布斯矩阵得到目标枢纽值向量，包括：

4.根据权利要求1所述的基于sinkhorn算法的零样本任务增强方法，其特征在于，所述s3中，对所述相似度矩阵进行sinkhorn归一化，计算得到收敛后的吉布斯矩阵包括：

5.根据权利要求4所述的基...

【专利技术属性】
技术研发人员：王海帅，潘正新，方辛未，池莲花，侯素娟，
申请(专利权)人：杭州心智医联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人