System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() Transformer结构医疗模型训练方法和系统技术方案_技高网

Transformer结构医疗模型训练方法和系统技术方案

技术编号:40096221 阅读:4 留言:0更新日期:2024-01-23 16:58
本发明专利技术提出Transformer结构医疗模型训练方法和系统。其中,方法包括:收集医疗图像数据集,对所述医疗图像数据集进行数据增强,并将增强后的医疗图像数据集划分为训练集和测试集;应用所述训练集对CNN和Transformer的特征图和分类头进行知识蒸馏,并且对所述CNN和Transformer进行训练;应用所述测试集对知识蒸馏和训练后的Transformer进行测试。本发明专利技术提出的方案能够在较少的数据量下将CNN的归纳偏置信息迁移到Transformer架构模型中,加速Transformer结构医疗模型训练。

【技术实现步骤摘要】

本专利技术属于人工智能领域,尤其涉及transformer结构医疗模型训练方法和系统。


技术介绍

1、过去十年时间,基于卷积神经网络(cnn)的深度学习模型取得了显著进展,并逐渐成为主流方法。然而,卷积神经网络仍然具有高计算成本和有限的感受域等的缺点。最近,基于transformer架构的大型语言模型(llm),如gpt、t5和bert,已经在各种自然语言处理(nlp)任务中取得了最先进的结果。此外,还开始使用到其他领域,例如计算机视觉(cv)(vit、stable diffusion、layoutlm)和音频(whisper、xls-r)。与cnn相比,transformer架构模型有以下优点:(1)transformer架构模型计算两个位置之间的关联所需的操作次数不会随着距离的增加而增加;(2)同时,transformer架构模型中注意力机制可以产生一个更具可解释性的模型,并且可以从模型中检查注意力分布,每个注意力头都可以学习执行不同的任务。(3)注意力机制在整合信息时可以获得全局感受野,相对于cnn架构模型,全局感受野对数据噪声、变形等具有较强的鲁棒性,因此,transformer架构模型的全局感受野对计算机视觉(cv)和自然语言处理(nlp)任务至关重要。

2、但是transformer架构模型缺乏cnn固有的一些归纳偏置信息,例如平移等方差和局部性,因此在数据量不足的情况下训练transformer架构模型时不能收敛与泛化。


技术实现思路

1、为解决上述技术问题,本专利技术提出transformer结构医疗模型训练方法的技术方案,以解决上述技术问题。

2、本专利技术第一方面公开了一种transformer结构医疗模型训练方法,所述方法包括:

3、步骤s1、收集医疗图像数据集,对所述医疗图像数据集进行数据增强,并将增强后的医疗图像数据集划分为训练集和测试集;

4、步骤s2、应用所述训练集对cnn和transformer的特征图和分类头进行知识蒸馏,并且对所述cnn和transformer进行训练;

5、步骤s3、应用所述测试集对知识蒸馏和训练后的transformer进行测试。

6、根据本专利技术第一方面的方法,在所述步骤s1中,所述对所述医疗图像数据集进行数据增强的方法为混合非几何数据增强方法,包括:

7、随机选取多种增强方法对所述医疗图像数据集进行数据增强;

8、所述多种增强方法包括:翻转、裁剪、添加高斯噪声、随机擦除、图像混合、旋转和扰动。

9、根据本专利技术第一方面的方法,在所述步骤s2中,所述对cnn和transformer的特征图进行知识蒸馏的方法包括:

10、以cnn和transformer第1层特征图为例,将cnn特征图输入到1×1卷积,以对齐transformer特征图的通道;

11、最小化cnn特征图和transformer特征图的l2距离,即欧氏距离进行知识蒸馏,特征图的知识蒸馏损失的数学表达为:

12、

13、其中,loss1表示特征图的知识蒸馏损失,||||2表示欧式距离,表示cnn和transformer特征图。

14、根据本专利技术第一方面的方法,在所述步骤s2中,所述对cnn和transformer的分类头进行知识蒸馏的方法包括:

15、最小化cnn分类头和transformer分类头的kl散度进行知识蒸馏,分类头的知识蒸馏损失的数学表达为:

16、

17、其中,losskl表示cnn和transformer的分类头知识蒸馏损失,kl(·)表示kl散度,表示cnn和transformer分类头。

18、根据本专利技术第一方面的方法,在所述步骤s2中,所述对所述cnn和transformer进行训练的方法包括:

19、应用cnn和transformer的分类结果与数据集中标注真实结果,通过交叉熵,进行监督训练,监督训练损失的数学表达为:

20、

21、

22、其中,为cnn训练损失,为cnn的分类结果,ycnn为cnn的标注真实结果,为transformer训练损失,为transformer的分类结果,ytrans为transformer的标注真实结果。

23、根据本专利技术第一方面的方法,在所述步骤s2中,所述对所述cnn和transformer进行训练的总体损失函数为:

24、

25、其中,ltotal为总体损失,为cnn训练损失,为transformer训练损失,losskl表示cnn和transformer的分类头知识蒸馏损失,loss1,loss2,loss3,loss4,loss5分别表示在第1,2,3,4,5层的cnn和transformer的特征图知识蒸馏损失。

26、本专利技术第二方面公开了一种transformer结构医疗模型训练系统,所述系统包括:

27、第一处理模块,被配置为,收集医疗图像数据集,对所述医疗图像数据集进行数据增强,并将增强后的医疗图像数据集划分为训练集和测试集;

28、第二处理模块,被配置为,应用所述训练集对cnn和transformer的特征图和分类头进行知识蒸馏,并且对所述cnn和transformer进行训练;

29、第三处理模块,被配置为,应用所述测试集对知识蒸馏和训练后的transformer进行测试。

30、本专利技术第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种transformer结构医疗模型训练方法中的步骤。

31、本专利技术第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种transformer结构医疗模型训练方法中的步骤。

32、综上,本专利技术提出的方案能够在较少的数据量下将cnn的归纳偏置信息迁移到transformer架构模型中,加速transformer结构医疗模型训练。

本文档来自技高网...

【技术保护点】

1.一种Transformer结构医疗模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种Transformer结构医疗模型训练方法,其特征在于,在所述步骤S1中,所述对所述医疗图像数据集进行数据增强的方法为混合非几何数据增强方法,包括:

3.根据权利要求1所述的一种Transformer结构医疗模型训练方法,其特征在于,在所述步骤S2中,所述对CNN和Transformer的特征图进行知识蒸馏的方法包括:

4.根据权利要求1所述的一种Transformer结构医疗模型训练方法,其特征在于,在所述步骤S2中,所述对CNN和Transformer的分类头进行知识蒸馏的方法包括:

5.根据权利要求1所述的一种Transformer结构医疗模型训练方法,其特征在于,在所述步骤S2中,所述对所述CNN和Transformer进行训练的方法包括:

6.根据权利要求5所述的一种Transformer结构医疗模型训练方法,其特征在于,在所述步骤S2中,所述对所述CNN和Transformer进行训练的总体损失函数为:

7.一种用于Transformer结构医疗模型训练系统,其特征在于,所述系统包括:

8.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至6中任一项所述的一种Transformer结构医疗模型训练方法中的步骤。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至6中任一项所述的一种Transformer结构医疗模型训练方法中的步骤。

...

【技术特征摘要】

1.一种transformer结构医疗模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种transformer结构医疗模型训练方法,其特征在于,在所述步骤s1中,所述对所述医疗图像数据集进行数据增强的方法为混合非几何数据增强方法,包括:

3.根据权利要求1所述的一种transformer结构医疗模型训练方法,其特征在于,在所述步骤s2中,所述对cnn和transformer的特征图进行知识蒸馏的方法包括:

4.根据权利要求1所述的一种transformer结构医疗模型训练方法,其特征在于,在所述步骤s2中,所述对cnn和transformer的分类头进行知识蒸馏的方法包括:

5.根据权利要求1所述的一种transformer结构医疗模型训练方法,其特征在于,在所述步骤s2中,所述对所述c...

【专利技术属性】
技术研发人员:马骏王晓磊张伟杨钰群
申请(专利权)人:北京芯联心科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1