基于对比学习的多模态医学图像数据集蒸馏方法及装置制造方法及图纸

技术编号：40463882 阅读：8 留言：0更新日期：2024-02-22 23:17

本公开提供了一种基于对比学习的多模态医学图像数据集蒸馏方法及装置，获取医学的多模态图像，并进行预处理；将每种模态视为对应成像区域的一种独特的数据增强方法，使用对比学习方法通过少量的标签对多模态图像进行特征提取并融合；基于提取的多模态特征使用知识蒸馏的方法，将大规模的多模态的数据集的信息压缩合成的小型数据集中。本公开有效解决了医学图像标签获取困难问题以及医学图像多模态数据在医院之间传递的隐私和运输成本问题。

全部详细技术资料下载

【技术实现步骤摘要】

本公开医学图像处理，尤其涉及一种基于对比学习的多模态医学图像数据集蒸馏方法及装置。

技术介绍

1、在医学影像领域，多种成像模态的出现，如mri、ct、x光和pet，为诊断和治疗应用开辟了新的视野。每种模态提供了独特的视角，捕捉了解剖、功能或分子数据的各种方面。尽管这种多模态数据的丰富性具有巨大的潜力，但在数据管理、处理和解释方面也存在挑战。存储、共享和处理这些大规模数据集需要大量的计算资源，这对许多医疗机构来说是繁重的任务，尤其是那些基础设施有限的机构。与此同时，在不同医院之间共享医学图像数据时，保护患者隐私是一个严重的问题，通常需要严格的伦理审查。找到计算、存储和隐私的平衡方法是解决上述问题的关键。

2、目前，数据集合成方法主要分为传统方法和基于深度学习的方法。在传统方法中，如数据增强、重采样和插值等，都为数据集提供了一定程度的扩展。这些方法通过对原始数据进行变换或基于已有数据点生成新数据点，从而实现增加数据量的目的。但这些方法往往受限于原始数据的分布和特性，可能无法生成具有多样性和代表性的新数据。此外，传统方法往往缺乏对数据内在结构和复杂性的深入理解，可能导致合成的数据与真实场景存在差异。与此相反，基于深度学习的方法，如生成对抗网络(gans)和变分自编码器(vaes)，通过学习大量数据获得了强大的数据生成能力。这些方法可以生成与真实数据相似，甚至难以区分的新数据。但是，深度学习方法通常需要大量的标记数据来训练，而在某些领域，如医学或特定的工业应用，获取大量标记数据是一大挑战。此外，深度学习方法的计算需求也较高，可能不适合所有应用场景。

3、针对以上现状，迫切需要开放一种结合传统方法和深度学习方法的优点，并克服它们的局限性的数据集合成方法，以克服当前实际应用中的不足。

技术实现思路

1、为了克服上述现有技术的不足，本公开提供一种基于对比学习的多模态医学图像数据集蒸馏方法及装置，以解决上述现有技术存在的问题。

2、根据本公开的第一方面，提供了一种基于对比学习的多模态医学图像数据集蒸馏方法，包括：

3、s1、获取医学图像的多模态图像，并对所述医学图像进行预处理，提高训练时候的泛化能力；

4、s2、通过对比学习方法，使用一部分的标签预训练特征融合网络，增强不同模态之间的互信息；

5、s3、基于所述特征融合网络，提取并融合不同模态的所述医学图像的特征，将融合好的特征输入分类器模块，在训练的时候微调所述特征融合网络，获得教师模型；

6、s4、构建并训练多个所述教师模型，任选一个所述教师模型作为知识蒸馏中的基准模型，使用噪声或者随机选取所述医学图像作为合成的小型数据集的初始化，将其作为与所述基准模型相同结构的学生模型的输入；

7、s5、在每次迭代中，使用合成数据集训练初始化的所述学生模型，将训练完的所述学生模型与随机选择的所述基准模型的参数求均方差损失，均方差损失反向传播梯度更新所述合成数据集。

8、优选地，所述预处理的过程包括：

9、以多种模态中的切片数量最少的模态作为基准，将其他模态从头部和尾部去除，得到与基准模态相同数量的切片数；

10、优选地，对比学习训练所述特征融合网络的过程包括：通过随机梯度下降的方法更新网络的参数，最小化对比损失函数；对于从同一个病例的不同模态提取出的特征，通过最小化正样本对的距离，让它们尽可能接近；对于相同模态的不同病例切片提取出的特征，通过最大化负样本对的距离，让它们尽可能远离。

11、优选地，微调并训练所述教师模型过程包括：将预训练好的所述特征融合模块与分类器进行拼接，初始化所述教师模型；将所述医学图像数据集的多个模态作为所述教师模型的输入，训练过程中，所述教师模型在调整分类器的同时也微调所述特征融合模块；通过随机梯度下降的方式更新网络参数，最小化交叉熵损失，使所述教师模型最大程度上拟合训练集和测试集。

12、优选地，初始化合成小型数据集，过程包括：从所述医学图像数据集中根据要合成的图像的类别随机选择相同数量的图像作为合成数据集的初始化，或者使用相同尺寸的噪声初始化合成数据集。

13、优选地，基于所述基准模型和所述学生模型之间蒸馏以更新合成数据集，过程包括：

14、在每次迭代过程中，从预训练的多个所述教师模型中随机选择一个作为基准模型；所述学生模型的参数使用所述基准模型的第i个epoch的参数θi作为初始化，将所述基准模型的第i+k个epoch的参数θi+k作为目标参数；

15、将所述合成数据集输入初始化的所述学生模型所述学生模型训练k个epoch后得到模型参数与目标模型θi+k计算均方差损失；

16、在每次迭代中，均方差损失通过反向传播梯度，更新所述合成数据集。

17、优选地，所述对比损失函数如下：

18、

19、

20、其中，v1，v2分别表示医学图像的两个模态，ln(v1,v2)表示v1与v2之间的对比损失，m表示医学图像模态的总数，k表示干扰样本的数量，表示计算样本和对比损失的函数。

21、优选地，所述计算样本和对比损失函数如下：

22、

23、其中，f表示编码器，θ1和θ2分别表示两个编码器不同的参数，τ表示超参数。

24、优选地，所述学生模型和所述基准模型的参数均方差损失如下：

25、

26、其中，θi表示选作所述学生模型初始化参数的所述基准模型第i轮的参数，θi+k表示所述基准模型θi训练k轮后的模型参数，表示所述学生模型经过k轮训练之后的模型参数。

27、根据本公开的第二方面，提供了一种基于对比学习的多模态医学图像数据集蒸馏装置，所述装置包括：

28、图像数据获取模块，用于获取医学图像的多模态图像，并对所述医学图像进行预处理，提高训练时候的泛化能力；

29、预训练模块，用于通过对比学习方法，使用一部分的标签预训练特征融合网络，增强不同模态之间的互信息；

30、融合分类模块，用于基于所述特征融合网络，提取并融合不同模态的所述医学图像的特征，将融合好的特征输入分类器模块，在训练的时候微调所述特征融合网络，获得教师模型；

31、模型构建模块，用于构建并训练多个所述教师模型，任选一个所述教师模型作为知识蒸馏中的基准模型，使用噪声或者随机选取所述医学图像作为合成的小型数据集的初始化，将其作为与所述基准模型相同结构的学生模型的输入；

32、数据更新模块，用于在每次迭代中，使用合成数据集训练初始化的所述学生模型，将训练完的所述学生模型与随机选择的所述基准模型的参数求均方差损失，均方差损失反向传播梯度更新所述合成数据集。

33、本公开的技术效果为：

34、本公开提供了一种基于对比学习的多模态医学图像数据集蒸馏方法，针对现有的关于数据集提炼的研究侧重于单一模态从而忽略了多本文档来自技高网...

【技术保护点】

1.一种基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

3.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

4.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

5.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

6.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

7.根据权利要求3所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

8.根据权利要求7所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

9.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

10.一种基于对比学习的多模态医学图像数据集蒸馏装置，其特征在于，包括以下模块：

【技术特征摘要】

1.一种基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

3.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

4.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

5.根据权利要求1所述的基于对比学习的多模态医学图像数据集蒸馏方法，其特征在于，

...

【专利技术属性】
技术研发人员：张小利，孙杰，杨飞扬，李雄飞，李忱阳，王李颖，薄晓磊，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人