【技术实现步骤摘要】
本专利技术属于医学影像计算,具体涉及重建混合策略的三维医学图像视觉语言模型预训练方法。
技术介绍
1、视觉语言模型被广泛定义为可以在大规模图像-文本对上学习以提高多粒度下游视觉和语言任务的多模态模型。视觉语言模型通常由三个元素组成:图像编码器,文本编码器以及融合两个编码器的信息的学习策略。由于损失函数是围绕上述模型结构和学习策略设计的,所以需要将上述关键元素紧密耦合在一起。在传统方法中,最具有代表性的方法是clip,它展现了在视觉和语言数据之间学习相互信息的巨大潜力。最近更多的研究表明,细粒度上下文对齐有利于模型学习更加具有代表性的表示,其中,blip方法通过利用视觉语义上下文来重建文本。然而在更加具有挑战性的医学领域,例如医学报告,对准确性的要求更为严格,上述方法难以满足这种需求。
2、为了解决该问题,近期的医学视觉语言模型通过不同的预训练方法提升模型学习的效率,例如,图像文本对的医学视觉表示的对比学习方法和少样本自监督对比学习预训练方法,通过直接最大化全局表示之间的互信息来对模型进行预训练。sat提出对齐配对图像补丁和单
...【技术保护点】
1.重建混合策略的三维医学图像视觉语言模型预训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法,其特征在于,S1构建大规模医学图像文本对数据集的具体步骤包括:
3.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法,其特征在于,S2和S3中提取并生成文本信息并生成文本特征的具体步骤为:
4.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法,其特征在于,S4中预处理三维医学图像并生成图像特征的具体步骤为:
5.根据权利要求2所
...【技术特征摘要】
1.重建混合策略的三维医学图像视觉语言模型预训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法,其特征在于,s1构建大规模医学图像文本对数据集的具体步骤包括:
3.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法,其特征在于,s2和s3中提取并生成文本信息并生成文本特征的具体步骤为:
4.根据权利要求1所述的重建混合策略的三维医学图像视觉语言模型预训练方法,其特征在于,s4中预处理三维医学图像并生成图像特征的具体步骤为:
5.根据权利要求2所述的重建混合策略的三维医学图像视觉语言模型预训练方法,其特征在于,s3中获取文本特征的具体步骤为:
【专利技术属性】
技术研发人员:焦李成,黄钟健,周中舟,郝佳瑶,李玲玲,刘旭,陈璞花,马文萍,杨淑媛,刘芳,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。