【技术实现步骤摘要】
一种基于深度学习的医疗影像问答方法及系统
本专利技术涉及计算机视觉和自然语言处理
,尤其涉及一种基于深度学习的医疗影像问答方法及系统。
技术介绍
医疗影像问答是指给定一张医疗影像以及与其相关的问题,需要根据医疗影像的内容来回答问题。近几年,这项任务受到越来越多的关注。当前医疗影像问答系统一般参照视觉问答系统进行设计,许多医疗影像问答系统采用卷积神经网络来提取图像的特征,并利用长短期记忆网络或者基于Transformer的模型来提取问题的特征,然后利用已有的跨模态融合策略来对提取得到的两个模态的特征进行结合。例如:J.J.Lau等人在2018年的研究工作“Adatasetofclinicallygeneratedvisualquestionsandanswersaboutradiologyimages”(Scientificdata,pages1-10,2018)尝试使用了MCB和SAN两种为自然图像的视觉问答系统设计的跨模态特征融合策略。与基于自然图像的视觉问答系统相比,医疗影像问答系统需要理解医疗术语并关注医 ...
【技术保护点】
1.一种基于深度学习的医疗影像问答方法,其特征在于,包括:/nS1、采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;/nS2、导入预先训练好的模型权重,从医疗影像数据集中获取医疗影像以及对应的问题;/nS3、通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;/nS4、通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;/nS5、将所述多模态特征输入到所述多层感知机中推断出估计的答案;/nS6、根据所述估计的答案和实际的答案、 ...
【技术特征摘要】
1.一种基于深度学习的医疗影像问答方法,其特征在于,包括:
S1、采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;
S2、导入预先训练好的模型权重,从医疗影像数据集中获取医疗影像以及对应的问题;
S3、通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;
S4、通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
S5、将所述多模态特征输入到所述多层感知机中推断出估计的答案;
S6、根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;
S7、根据所述交叉熵损失更新所述模型参数;
S8、采用不同的医疗影像和不同的问题多次迭代式地进行S2-S7步骤,直至符合停止条件。
2.根据权利要求1所述的基于深度学习的医疗影像问答方法,其特征在于,在所述通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征之前,还包括,对所述医疗影像和问答数据分别进行预处理,具体为:
将所述医疗影像随机裁剪成预设地固定大小;
将所述问题的单词数目缩减或增加到预设的数目。
3.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,所述通过文本编码器提取所述问题的文本特征,包括:
通过词嵌入模型对所述问题中的单词映射得到词向量;
根据所述词向量,通过长短期记忆网络建模序列信息,得到所述问题的文本特征。
4.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,
所述跨模态自注意力模块能通过学习和利用长期的上下文相关性来融合所述视觉特征、空间特征和文本特征。
5.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,所述视觉编码器包括,N个子视觉编码器和M个医疗影像分类器,其中,N大于1,M大于等于1。
6.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,当所述视觉编码器包括N个子视觉编码器和1个医疗影像分类器时,所述通过所述视觉编码器提取所述医疗影像的视觉特征,具体为:
采用所述医疗影像分类器的输出对所有所述子视觉编码器提取的特征进行加权组合,得到所述视觉特征。
7.根据权利要求6所述的基于深度学习的医疗影像问答方法,其特征在于,所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器,所述三个子视觉编码器分别为第一子视觉编码器、第二子视觉编码器、和第三子视觉编码器;其中,所述第一子视觉编码器的结构、第二子视觉编码器结构、第三子视觉编码器的结构相同;所述第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同;所述分类器的训练集包括所述第一子视觉编码器的训练集、第二子视觉编码器训练集和第三子视觉编码器的训练集。
8.根据权利要求5所述的基于深度学习的医疗影像问答方法,其特征在于,所述多任务包括图像理解任务、问题与图像匹配任务;其中,所述图像理解任务为分割任务或者分类任务;
所述子视觉编码器的训练方法为:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。