当前位置: 首页 > 专利查询>安徽大学专利>正文

基于视觉-语言多模态对比学习的超声图像预训练方法技术

技术编号:43086959 阅读:21 留言:0更新日期:2024-10-26 09:35
本发明专利技术公开一种基于视觉‑语言多模态对比学习的超声图像预训练方法,通过单模态局部对比学习与多模态局部对比学习实现特征对齐,并创造性地提出自监督预训练方法,该方法使用医学超声图像数据与诊断报告文本数据学习输入图像和报告文本的单模态和多模态特征表示,利用单模态对比损失与多模态对比损失对齐图像与文本特征。本发明专利技术考虑到超声图像与诊断报告的特点,本发明专利技术采用局部对比学习的方式来细粒度对齐图像与文本特征。本发明专利技术以掩码语言建模和图像文本匹配作为预训练目标进行预训练。

【技术实现步骤摘要】

本专利技术涉及图像处理技术,具体涉及一种基于视觉-语言多模态对比学习的超声图像预训练方法


技术介绍

1、医学超声成像技术,作为一种非侵入性、又无辐射的检查方法,在临床诊断领域发挥着核心作用。该技术能够即时呈现人体内部器官的形态结构和功能活动,因此在心血管疾病诊断、肿瘤筛查、以及妇产科检查等多个医疗领域得到了广泛应用。然而,传统的医学超声成像技术面临着一些挑战,如超声图像的质量受操作者技术影响大、超声图像的解析度有限以及超声图像解释主观性强等。近年来,随着人工智能技术的飞速发展,特别是深度学习技术在图像识别和处理方面的突破性进展,为医学超声成像领域带来了革命性的变化。深度学习,作为一种模拟人脑分析和学习数据的方法,可以通过大量的预训练数据学习到超声图像当中的特征,并用于自动识别、分割和分类医学超声图像。

2、如今,随着深度学习的发展,自动识别、分割和分类医学超声图像等下游任务有了长足的发展。但是,在深度学习领域,大多数研究通过先在自然图像上预训练,然后通过迁移学习、对比学习等方式迁移到医学超声图像领域。由于自然图像和医学超声图像之间存在着域差异本文档来自技高网...

【技术保护点】

1.一种基于视觉-语言多模态对比学习的超声图像预训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于视觉-语言多模态对比学习的超声图像预训练方法,其特征在于,所述步骤S1中图像编码器和掩码图像编码器结构相同,均利用12层视觉Transformer从超声图像中提取视觉特征;在预训练时,超声图像被划分成大小为16×16的图像块,一方面送入图像编码器进行处理,另一方面对25%的图像块进行随机屏蔽,剩余未屏蔽的图像块由掩码图像编码器编码为嵌入序列;所述文本编码器和掩码文本编码器结构相同,均采用6层Transformer网络,并且由预训练的BERT网络的前6层初始化,在预...

【技术特征摘要】

1.一种基于视觉-语言多模态对比学习的超声图像预训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于视觉-语言多模态对比学习的超声图像预训练方法,其特征在于,所述步骤s1中图像编码器和掩码图像编码器结构相同,均利用12层视觉transformer从超声图像中提取视觉特征;在预训练时,超声图像被划分成大小为16×16的图像块,一方面送入图像编码器进行处理,另一方面对25%的图像块进行随机屏蔽,剩余未屏蔽的图像块由掩码图像编码器编码为嵌入序列;所述文本编码器和掩码文本编码器结构相同,均采用6层transformer网络,并且由预训练的bert网络的前6层初始化,在预训练时,诊断报告文本使用wordpiece标记器转换为一系列token,一方面输入到基于bert的文本编码器中,另一方面对25%的token进行随机屏蔽,剩余未屏蔽的token由掩码文本编码器编码为嵌入序列;此外,特殊token[cls]被附加到图片和文本序列的开头。

...

【专利技术属性】
技术研发人员:涂铮铮古乐张超学江波段亚阳张迪汤进
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1