基于多尺度多模态深度注意力网络的训练方法及系统技术方案

技术编号：40958736 阅读：5 留言：0更新日期：2024-04-18 20:36

本发明专利技术公开了基于多尺度多模态深度注意力网络的训练方法及系统，该方法，包括采用自监督学习算法进行训练，利用深度神经网络和注意力机制，从多种尺度联合分析多种模态数据内部的分布特性以及多种模态数据之间的关联性，无需任何人工标注，即可自动提取出含有丰富的语义信息的影像特征和纹理信息的文本特征。为了更好的支持三维影像分析，同时提高计算效率，本发明专利技术提出的深度注意力网络采用了一种基于注意力机制的二维图像融合策略，在分析三维医学影像时，只需使用单个二维网络进行影响特征提取，再利用二维图像融合策略，即可高效获取三维医学影像的特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能、医学影像处理、自然语言处理，特别是涉及基于多尺度多模态深度注意力网络的训练方法及系统。

技术介绍

1、近年来，深度学习技术飞速发展，在医学领域展现出了巨大的潜力。深度学习利用多层神经网络学习样本数据的内在规律和表示层次，帮助网络理解输入数据，并用于多种具体任务，例如疾病诊断、器官分割等。大量研究表明，深度网络的性能与训练网络使用的标注数据量密切相关，使用大量含有精确标注的数据对深度网络进行训练，能够使模型获得更高的性能和更强的泛化能力。尤其是对于三维输入数据而言，与处理二维数据相比，建模三维数据所需的网络参数量更大，导致网络训练所需的数据量、计算资源和处理时间更多。

2、然而，与一般视觉或自然语言处理领域不同，对于医学领域来说，收集大量数据并进行标注是一项巨大的挑战，因为对医学数据进行标注需要标注者具有一定的医学知识，才能对数据进行准确的标注。因此，通常只有专业医生才能胜任标注工作。在医疗资源有限、医生经验不足的情况下，医生的日常工作任务已经非常繁重，额外的标注任务只会进一步增加医生的工作强度和难度，降低医疗服务质量。因此，如何开发无需人工标注的深度学习方法，高效提取医学数据中的关键特征，成为在医学领域开发和应用深度学习技术中的一项亟待解决的问题。

技术实现思路

1、本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此，本专利技术提出了一种基于多尺度多模态深度注意力网络的训练方法，采用自监督学习算法进行训练，利用深度

3、本专利技术的另一个目的在于提出一种基于多尺度多模态深度注意力网络的训练系统。

4、为达上述目的，本专利技术一方面提出一种基于多尺度多模态深度注意力网络的训练方法，包括：

5、获取患者的三维医学影像数据和对应的影像报告数据，并构建多模态深度网络模型；其中，所述多模态深度网络模型，包括二维图像编码器、特征融合编码器、二维图像解码器和文本编码器；

6、将所述三维医学影像数据预处理后得到的缩放后的二维图像的底层特征输入至二维图像编码器得到二维图像特征，并将二维图像特征和预设的序列特征叠加后输入至特征融合编码器得到三维医学影像序列特征，以及将所述二维图像特征输入至二维图像解码器以解码输出恢复的二维图像；

7、将所述影像报告数据预处理后得到的带有位置信息的词向量输入至文本编码器中进行编码得到影像报告数据的文本特征，并将三维医学影像序列特征输入至文本解码器中，通过解码生成与三维医学影像数据对应的基于自然语言的影像描述特征；

8、基于所述三维医学影像序列特征和所述文本特征进行特征对齐以计算第一损失，基于所述恢复的二维图像和缩放后的二维图像以计算第二损失，以及基于影像报告数据预处理后的截断影像报告和所述影像描述特征计算第三损失，通过基于所述第一损失、第二损失和所述第三损失得到的最终网络损失进行模型训练以更新模型参数，得到训练好的多模态深度网络模型。

9、本专利技术实施例的基于多尺度多模态深度注意力网络的训练方法还可以具有以下附加技术特征：

10、在本专利技术的一个实施例中，获取患者三维医学影像数据和对应的影像报告数据，包括：

11、通过pacs影像管理和通信系统收集患者三维医学影像数据；

12、利用影像对应的患者id在电子病历系统中检索对应的影像检查记录，以提取影像报告数据；

13、将配对后的所述三维医学影像数据和所述影像报告数据作为训练数据集。

14、在本专利技术的一个实施例中，预处理所述三维医学影像数据得到缩放后的二维图像的底层特征，包括：

15、利用双线性插值对三维医学影像数据进行重采样，并通过等间距采样从重采样后的三维医学影像数据中采样出多张二维医学影像；

16、将二维医学影像缩放后进行分块化处理得到多个图像块，并将从所述多个图像块中随机选取的部分图像块记录位置后删除，以将剩余的图像块像素展开得到一维向量；

17、利用全连接层将所述一维向量映射到底层表征空间中得到二维医学影像的底层特征序列，并在所述底层特征序列前叠加一个额外的可学习的特征作为整张二维医学影像的底层特征。

18、在本专利技术的一个实施例中，将所述二维图像特征输入至二维图像解码器以解码输出恢复的二维图像，包括：

19、保持所述二维图像特征的原有图像块位置，并根据记录的被删除图像块的位置在对应位置添加可学习的遮蔽块特征得到最终图像块；

20、将所述最终图像块输入二维图像特征解码器中计算图像块之间的注意力，以基于输入的特征恢复出原始的二维图像。

21、在本专利技术的一个实施例中，预处理所述影像报告数据，包括：

22、确定影像报告数据的最大长度，并将超过最大长度的报告进行截断得到截断影像报告；

23、对所述截断影像报告进行分词，以将完整报告划分为单独的词进行嵌入得到词嵌入；

24、利用余弦位置编码记录各个词的位置得到位置编码，并将所述位置编码和所述词嵌入相加得到完整的输入词嵌入，以得到带有位置信息的词向量。

25、在本专利技术的一个实施例中，基于所述三维医学影像序列特征和所述文本特征进行特征对齐以计算第一损失，包括：

26、在特征空间中计算三维医学影像序列特征和文本特征的余弦相似度，以通过最大化配对的三维医学影像序列特征和文本特征在特征空间中的相似度；

27、最小化不配对的三维医学影像序列特征和文本特征在特征空间中的相似度，以计算多模态对比损失函数，使得配对的三维医学影像序列特征和文本特征在特征空间中的对齐。

28、为达上述目的，本专利技术另一方面提出一种基于多尺度多模态深度注意力网络的训练系统，包括：

29、影像数据获取模块，用于获取患者三维医学影像数据和对应的影像报告数据，并构建多模态深度网络模型；其中，所述多模态深度网络模型，包括二维图像编码器、特征融合编码器、二维图像解码器和文本编码器；

30、影像数据解码模块，用于将所述三维医学影像数据预处理后得到的缩放后的二维图像的底层特征输入至二维图像编码器得到二维图像特征，并将二维图像特征和预设的序列特征叠加后输入至特征融合编码器得到三维医学影像序列特征，以及将所述二维图像特征输入至二维图像解码器以解码输出恢复的二维图像；

31、文本数据解码模块，用于将所述影像报告数据预处理后得到的带有位置信息的词向量输入至文本编码器中进行编码得到影像报告数据的文本特征，并将三维医学影像序列特征输入至文本解码器中，通过解码生成与三维医学影像数据对应的基于自然语言的本文档来自技高网...

【技术保护点】

1.一种基于多尺度多模态深度注意力网络的训练方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，获取患者三维医学影像数据和对应的影像报告数据，包括：

3.根据权利要求2所述的方法，其特征在于，预处理所述三维医学影像数据得到缩放后的二维图像的底层特征，包括：

4.根据权利要求3所述的方法，其特征在于，将所述二维图像特征输入至二维图像解码器以解码输出恢复的二维图像，包括：

5.根据权利要求4所述的方法，其特征在于，预处理所述影像报告数据，包括：

6.根据权利要求5所述的方法，其特征在于，基于所述三维医学影像序列特征和所述文本特征进行特征对齐以计算第一损失，包括：

7.一种基于多尺度多模态深度注意力网络的训练系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，影像数据解码模块，还用于：

9.根据权利要求8所述的系统，其特征在于，影像数据解码模块，还用于：

10.根据权利要求9所述的系统，其特征在于，文本数据解码模块，还用于：

【技术特征摘要】

1.一种基于多尺度多模态深度注意力网络的训练方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，获取患者三维医学影像数据和对应的影像报告数据，包括：

3.根据权利要求2所述的方法，其特征在于，预处理所述三维医学影像数据得到缩放后的二维图像的底层特征，包括：

4.根据权利要求3所述的方法，其特征在于，将所述二维图像特征输入至二维图像解码器以解码输出恢复的二维图像，包括：

5.根据权利要求4所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：徐枫，马靓笛，郭雨晨，叶荔姗，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人