重建混合策略的三维医学图像视觉语言模型预训练方法技术

技术编号：45156733 阅读：31 留言：0更新日期：2025-05-06 18:11

本发明专利技术公开了重建混合策略的三维医学图像视觉语言模型预训练方法，属于医学影像计算技术领域，包括构建医学图像文本对数据集，语言文本掩码重建策略，视觉图像掩码重建策略，语义感知融合策略，多任务联合学习；本发明专利技术对大语言模型进行微调，使用微调的大语言模型提取医学报告中的诊断及属性信息并生成高效的提示，并且大语言模型具有较强的泛化能力，大大节省了人工标注的成本；本发明专利技术的语义感知融合策略，是将文本编码器得到的文本特征和图像编码器得到的图像特征相结合得到新的文本特征，使文本提前感知图像的诊断及属性信息，进一步优化图像和文本在嵌入空间中的对齐，提升了预训练的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于医学影像计算，具体涉及重建混合策略的三维医学图像视觉语言模型预训练方法。

技术介绍

1、视觉语言模型被广泛定义为可以在大规模图像-文本对上学习以提高多粒度下游视觉和语言任务的多模态模型。视觉语言模型通常由三个元素组成：图像编码器，文本编码器以及融合两个编码器的信息的学习策略。由于损失函数是围绕上述模型结构和学习策略设计的，所以需要将上述关键元素紧密耦合在一起。在传统方法中，最具有代表性的方法是clip，它展现了在视觉和语言数据之间学习相互信息的巨大潜力。最近更多的研究表明，细粒度上下文对齐有利于模型学习更加具有代表性的表示，其中，blip方法通过利用视觉语义上下文来重建文本。然而在更加具有挑战性的医学领域，例如医学报告，对准确性的要求更为严格，上述方法难以满足这种需求。

2、为了解决该问题，近期的医学视觉语言模型通过不同的预训练方法提升模型学习的效率，例如，图像文本对的医学视觉表示的对比学习方法和少样本自监督对比学习预训练方法，通过直接最大化全局表示之间的互信息来对模型进行预训练。sat提出对齐配对图像补丁和单...

【技术保护点】

1.重建混合策略的三维医学图像视觉语言模型预训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法，其特征在于，S1构建大规模医学图像文本对数据集的具体步骤包括：

3.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法，其特征在于，S2和S3中提取并生成文本信息并生成文本特征的具体步骤为：

4.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法，其特征在于，S4中预处理三维医学图像并生成图像特征的具体步骤为：

5.根据权利要求2所述的重建混合策略的三...

【技术特征摘要】

1.重建混合策略的三维医学图像视觉语言模型预训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法，其特征在于，s1构建大规模医学图像文本对数据集的具体步骤包括：

3.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法，其特征在于，s2和s3中提取并生成文本信息并生成文本特征的具体步骤为：

4.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法，其特征在于，s4中预处理三维医学图像并生成图像特征的具体步骤为：

5.根据权利要求2所述的重建混合策略的三维医学图像视觉语言模型预训练方法，其特征在于，s3中获取文本特征的具体步骤为：

【专利技术属性】
技术研发人员：焦李成，黄钟健，周中舟，郝佳瑶，李玲玲，刘旭，陈璞花，马文萍，杨淑媛，刘芳，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人