【技术实现步骤摘要】
本专利技术涉及跨模态预训练,尤其涉及一种多语义粒度的跨模态预训练方法。
技术介绍
1、预训练是深度学习中一种重要的技术策略,旨在通过在大规模数据上预先训练模型,使其学习到通用的特征表示,从而为后续的下游任务提供良好的初始化参数。这一过程能够为下游任务显著减少训练时间和计算资源的消耗,并在一定程度上缓解梯度消失或爆炸等问题。
2、预训练模型主要可分为三大类:视觉模型、自然语言处理模型以及多模态模型。其中,多模态模型的典型代表包括clip和dall·e等。然而,这些模型均未基于医学影像-文本对数据进行训练,若直接将其参数迁移至医学领域的深度学习任务中,可能导致以下问题:模型性能下降、训练数据需求增加、梯度消失或梯度爆炸等。
3、医院存有大量成对的医学影像与文本数据,这些文本数据主要包含对医学影像的诊断与描述,对于解读影像数据所呈现的病理特征具有关键的指导作用。这些数据为跨媒体预训练提供了坚实的现实基础。在自然图像处理领域的研究成果已经证实,文本与图像的匹配是一种高效的跨模态预训练方式。基于现有研究成果,本专利技术提出
...【技术保护点】
1.一种多语义粒度的跨模态预训练方法,其特征在于,步骤如下:
2.根据权利要求1所述的多语义粒度的跨模态预训练方法,其特征在于,所述视觉-文本标记对比损失模块,使用线性投影层g*(·)将视觉类别特征vcls和文本类别特征tcls转换到相同维度,计算视觉类别特征vcls和文本类别特征tcls之间的余弦相似度s(v,t):
3.根据权利要求1所述的多语义粒度的跨模态预训练方法,其特征在于,所述掩码语言建模模块中,以不高于45%的概率随机屏蔽文本特征,得到掩码文本特征,作为交叉注意力模型Query输入,Key和Value来自视觉特征;输入掩码文本特征
...【技术特征摘要】
1.一种多语义粒度的跨模态预训练方法,其特征在于,步骤如下:
2.根据权利要求1所述的多语义粒度的跨模态预训练方法,其特征在于,所述视觉-文本标记对比损失模块,使用线性投影层g*(·)将视觉类别特征vcls和文本类别特征tcls转换到相同维度,计算视觉类别特征vcls和文本类别特征tcls之间的余弦相似度s(v,t):
3.根据权利...
【专利技术属性】
技术研发人员:冯君桐,张立和,陈思伊,董佳希,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。