System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种跨模态聚类引导图像编码器的训练方法技术_技高网

一种跨模态聚类引导图像编码器的训练方法技术

技术编号:45031005 阅读:11 留言:0更新日期:2025-04-18 17:10
本发明专利技术涉及一种跨模态聚类引导图像编码器的训练方法,该方法将对比学习与聚类算法相结合,无缝利用医学图像和放射学文本的全局和局部特征。此方法促进了更为通用和鲁棒的医学视觉表示学习。将图像子区域和文本句子视为进行全局和局部对比学习的基本单元。全局图像和全局文本特征分别通过对编码器提取的局部图像和局部文本特征应用注意力池化得到,随后用于计算全局对比损失。一种跨模态聚类算法,利用通过跨模态注意力获得的局部图像‑文本特征来生成额外的负样本,这些负样本随后被用来计算局部对比损失。

【技术实现步骤摘要】

本专利技术涉及数据预处理方法,特别涉及一种跨模态聚类引导和对比学习的图像编码器的训练方法。


技术介绍

1、在自然图像领域,大规模标注数据集的使用显著推动了深度学习的发展,在视觉识别方面取得了显著成就。然而,在医学影像中,获得高质量的手动标注数据集是一个相当大的挑战,因为这需要经验丰富的医生进行注释,既耗时又昂贵。因此,深度学习在医学影像领域的进展受到了一定的限制。针对自然图像领域中标签数据集不足的问题,通常采用预训练方法,即模型首先在大规模自然图像数据集上进行预训练,然后将学到的一般图像表示迁移到下游任务,从而提升下游模型的收敛速度和泛化性能。但是,由于自然图像和医学图像之间的域差异,直接将在如imagenet这样的自然图像数据集上预训练的模型转移到下游医学影像任务时,往往产生次优结果。为了解决这个问题,一个主流的方法是利用自监督方法对大规模未标注医学图像数据集进行预训练。然而,这种方法仍然面临两个主要挑战:第一,可用于预训练的医学图像数据量远少于自然图像数据;第二,医学图像更强调图像内部的局部特征和细粒度信息,而不仅仅是全局信息。

2、为了应对有限的医学图像数据问题,一个自然而然的想法是利用配对的放射学报告通过视觉-语言预训练(vision-language pre-training,vlp)来学习可迁移的医学视觉表示。放射学报告由医学专家如放射科医师在临床实践中撰写,提供了宝贵的语义信息,为图像提供监督信息。这有助于抵消图像数据的稀缺性和高标注成本,帮助模型学习更丰富和更深层次的医学图像特征表示。近年来,vlp在医疗领域取得了显著进展,特别是通过设计合理的预训练任务,如对比学习和生成重建任务。然而,大多数对比学习方法是从全局视角设计的,并没有考虑到图像和文本中的详细信息。虽然生成的表示对于图像级别的任务(如图像分类)很合适,但对于需要细粒度细节的像素级别任务(如目标检测和语义分割)来说并不是理想的选择。

3、一些工作考虑到了局部细节信息。采用基于注意力机制的对比学习策略,使子区域图像表示与报告中的词级表示对齐,使模型能够更加关注图像的具体部分和文本中的关键词。同样,mgca开发了一种双向注意机制的逐标记对齐模型,进一步细化了图像和文本之间的对应关系。adamatch引入了自适应补丁提取(adapatch)模块,可以根据病变的实际大小和位置自适应地选择图像区域,从而更准确地捕捉病变特征。尽管这些词级局部对齐策略增强了模型理解局部细节的能力,但它们通常忽略了医学报告句子层面的语义结构信息。医学报告通常包含复杂的句法和语义关系,词汇间的关联对于理解报告的整体含义至关重要。

4、lovt虽然利用了句子层面的语义信息进行对比学习,但只从同一样本内的句子中抽取负样本,导致负样本数量不足,限制了模型性能。


技术实现思路

1、针对现有技术存在的上述问题,本专利技术要解决的技术问题是:如何提供一种能准确提取医学影像特征图像编码器。

2、为解决上述技术问题,本专利技术采用如下技术方案:一种跨模态聚类引导图像编码器的训练方法,包括如下步骤:

3、s1:接收一个数据集该数据集由n对医学图像和报告组成的数据对,其中分别表示第i张医学图像和第i个报告,医学图像和报告一一对应;对g中n对数据对进行预处理;

4、s2:对预处理后的n对数据对进行采用得到一个批次batch,通过图像编码器ei将g中的一个batch中的医学图像映射到潜在空间以获得局部图像特征和全局图像特征通过文本编码器er将g中一个batch中的报告映射到潜在空间以获得局部文本特征和全局文本特征其中p=1,2,..p,m=1,2,…m,p表示一张医学图像中分成的局部图像块的个数,m表示一个报告中句子的数量。

5、s3:使用四个多层感知机mlps分别将和映射到相同的维度d。

6、在当前batch中:计算全局医学图像到报告的全局对齐损失时,逐个将医学图像对应的作为锚点anchor,同时将anchor对应的作为正样本,当前batch中的其他作为负样本。

7、在当前batch中:计算全局报告到医学图像的全局对齐损失时,逐个将医学图像对应作为锚点anchor,同时将anchor对应的作为正样本,当前batch中的其他作为负样本。

8、s4:将和之和作为总的全局损失lglobal;

9、

10、s5:计算局部图像到报告的注意力表示和报告到局部图像注意力表示

11、在当前batch中:计算医学图像到报告的局部对齐损失时,逐个将医学图像对应的作为anchor,anchor对应的医学图像的和通过交叉注意力计算得到的两个跨模态表示和和分别代表局部图像到局部文本的跨模态表示和局部文本到局部图像的跨模态表示,将anchor对应的作为正样本,当前batch中的其他当作负样本。

12、当前batch中:计算双向边界损失lbml时,逐个将医学图像对应的作为anchor,将与最相似的簇中心所关联的簇中的医学图像视为假负样本。

13、当前batch中:计算报告到医学图像的局部对齐损失

14、s6:将lbml和之和作为局部对齐损失llocal。

15、

16、s7:以预设的概率随机掩码得到掩码后局部图像特征在通道维度d上连接和利用来补全得到融合后的图像特征,融合后的图像特征通过解码模块进行图像解码和重建,计算融合后的图像特征进行图像解码和重建损失lre。

17、s8:将lglobal、llocal和lre加权求和得到总体损失l,根据l的值反向更新ei和er的参数并返回s2,直至l的值不再下降得到训练好的ei和er。

18、l=λgloballglobal+λlocalllocal+λrelre    (13)

19、其中λglobal,λlocal和λre分别是对应的超参数。

20、进一步的,所述s2中获得局部图像特征和全局图像特征的步骤为:

21、使用resnet50作为ei,将编码为p个子区域的表示作为局部图像特征,记作其中p表示第p个子区域的位置索引,而ci是局部图像特征的维度,通过对进行自注意力池化来获得全局图像特征

22、进一步的,所述s2中获得局部文本特征和全局文本特征的步骤为:

23、采用bioclinicalbert作为文本编码器er,每个报告被编码为m个句子级别的表示,记作其中m表示第i个报告中第m个句子的句子索引,而cr是局部文本特征的维度,m在不同文本间不是固定的。通过对进行自注意力池化而不是使用[cls]标记来获得全局文本特征

24、进一步的,所述s3中计算的过程为:

25、

26、全局医学图像到报告的全局对齐损失为:

27、

28、其中b表示批次大小,τ1表示温度超参数。

29、进一步的,所述s3中计算的过程为:

30本文档来自技高网...

【技术保护点】

1.一种跨模态聚类引导图像编码器的训练方法,其特征在于:包括如下步骤:

2.如权利要求1所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述S2中获得局部图像特征和全局图像特征的步骤为:

3.如权利要求2所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述S2中获得局部文本特征和全局文本特征的步骤为:

4.如权利要求3所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述S3中计算的过程为:

5.如权利要求4所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述S3中计算的过程为:

6.如权利要求5所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述S5中计算和的过程为:

7.如权利要求6所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述S5中计算的过程为:

8.如权利要求7所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述S5中计算Lbml的过程为:

9.如权利要求8所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述S5中计算的过程为:

10.如权利要求9所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述S7中,融合后的图像特征进行图像解码和重建损失Lre为:

...

【技术特征摘要】

1.一种跨模态聚类引导图像编码器的训练方法,其特征在于:包括如下步骤:

2.如权利要求1所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述s2中获得局部图像特征和全局图像特征的步骤为:

3.如权利要求2所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述s2中获得局部文本特征和全局文本特征的步骤为:

4.如权利要求3所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述s3中计算的过程为:

5.如权利要求4所述的一种跨模态聚类引导图像编码器的训练方法,其特征在于:所述s3中计算的过程为:

6.如...

【专利技术属性】
技术研发人员:兰利彬李洪兴卢玲朱凌云夏遵辉李颜心
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1