一种多语义粒度的跨模态预训练方法技术

技术编号:45580986 阅读:21 留言:0更新日期:2025-06-20 22:01
本发明专利技术属于跨模态预训练技术领域,公开一种多语义粒度的跨模态预训练方法。旨在通过融合医学知识库、结构化三元组提取、多任务对比学习与跨模态注意力机制,提升医学影像分析的准确性和可解释性。该方法适用于病灶检测、疾病分型分级诊断,并兼容CTA、IVUS等多种医学影像模态。本发明专利技术首先构建了文本处理模块,清洗掉冗余的文本内容,得到关键字,并进行特征提取。然后构建了基于3D视觉编码器的医学影像处理模块。接着进行视觉‑文本标记初步对比,最后通过掩码语言建模和视觉‑文本匹配进行精细对比。最终实现应用于医学影像的跨模态预训练。

【技术实现步骤摘要】

本专利技术涉及跨模态预训练,尤其涉及一种多语义粒度的跨模态预训练方法


技术介绍

1、预训练是深度学习中一种重要的技术策略,旨在通过在大规模数据上预先训练模型,使其学习到通用的特征表示,从而为后续的下游任务提供良好的初始化参数。这一过程能够为下游任务显著减少训练时间和计算资源的消耗,并在一定程度上缓解梯度消失或爆炸等问题。

2、预训练模型主要可分为三大类:视觉模型、自然语言处理模型以及多模态模型。其中,多模态模型的典型代表包括clip和dall·e等。然而,这些模型均未基于医学影像-文本对数据进行训练,若直接将其参数迁移至医学领域的深度学习任务中,可能导致以下问题:模型性能下降、训练数据需求增加、梯度消失或梯度爆炸等。

3、医院存有大量成对的医学影像与文本数据,这些文本数据主要包含对医学影像的诊断与描述,对于解读影像数据所呈现的病理特征具有关键的指导作用。这些数据为跨媒体预训练提供了坚实的现实基础。在自然图像处理领域的研究成果已经证实,文本与图像的匹配是一种高效的跨模态预训练方式。基于现有研究成果,本专利技术提出了一种多语义粒度的跨本文档来自技高网...

【技术保护点】

1.一种多语义粒度的跨模态预训练方法,其特征在于,步骤如下:

2.根据权利要求1所述的多语义粒度的跨模态预训练方法,其特征在于,所述视觉-文本标记对比损失模块,使用线性投影层g*(·)将视觉类别特征vcls和文本类别特征tcls转换到相同维度,计算视觉类别特征vcls和文本类别特征tcls之间的余弦相似度s(v,t):

3.根据权利要求1所述的多语义粒度的跨模态预训练方法,其特征在于,所述掩码语言建模模块中,以不高于45%的概率随机屏蔽文本特征,得到掩码文本特征,作为交叉注意力模型Query输入,Key和Value来自视觉特征;输入掩码文本特征和未经掩码的视觉特征...

【技术特征摘要】

1.一种多语义粒度的跨模态预训练方法,其特征在于,步骤如下:

2.根据权利要求1所述的多语义粒度的跨模态预训练方法,其特征在于,所述视觉-文本标记对比损失模块,使用线性投影层g*(·)将视觉类别特征vcls和文本类别特征tcls转换到相同维度,计算视觉类别特征vcls和文本类别特征tcls之间的余弦相似度s(v,t):

3.根据权利...

【专利技术属性】
技术研发人员:冯君桐张立和陈思伊董佳希
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1