一种基于跨模态对比学习的医学报告生成方法技术

技术编号:34133053 阅读:25 留言:0更新日期:2022-07-14 15:55
本发明专利技术公开了一种基于跨模态对比学习的医学报告生成方法。本发明专利技术步骤如下:1、使用ViT模型将图像切成图像块,然后使用可训练的线性投影将图像块映射到特定的特征空间中,同时添加位置保留位置信息,再输入标准的TransformerEncoder来提取图像特征;2、使用预训练好的ClinicalBERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征;3、将得到的图像特征和文本特征进行双塔结构的跨模态对比学习进行对齐操作;4、将得到的图像特征和文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder

【技术实现步骤摘要】
一种基于跨模态对比学习的医学报告生成方法


[0001]本专利技术涉及医学报告生成,尤其涉及一种基于跨模态对比学习的医学报告生成方法。

技术介绍

[0002]胸片是临床上最常用的影像学检查方法之一。然而,解释胸片并撰写报告是繁琐的,这为放射科医生增加了大量的工作量。因此,使用机器学习技术的自动医学报告生成,有望减轻医生的负担并加快临床的工作流程。从根本上说,这可以看作是将视觉输入转换为文本输出,即一般所说的Image Caption任务。然而,将其转换到医学报告中并非易事,因为我们需要了解其复杂的结构和多样性,以及建模由放射科医生的不同专业知识和经验引起的不确定性。
[0003]大多数现有的成功的医学报告生成模型遵循标准的Image Caption方法,并采用encoder

decoder框架。但是直接将Image Caption的方法应用到医学报告生成是存在一些问题的,医学报告生成有其固有的一些难题:1)提取图像特征难:在Image Caption任务中,图像中主要是文本中所描述的事件,文本中也是图像中主要发生的事件本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态对比学习的医学报告生成方法,其特征在于包括如下步骤:步骤(1)、使用改进的ViT模型,首先将图像切成图像块,然后使用可训练的线性投影将图像块映射到特定的特征空间中,同时添加位置embedding以保留位置信息,再输入标准的Transformer Encoder来提取图像特征;步骤(2)、使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征;步骤(3)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征进行双塔结构的跨模态对比学习进行对齐操作;步骤(4)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder

L,得到每个时间步的单词概率分布;步骤(5)、将步骤(4)中输入图像特征得到的单词概率分布Ⅰ和输入文本特征得到的单词概率分布Ⅱ使用单塔结构的跨模态对比学习进行对齐。2.根据权利要求1所述的一种基于跨模态对比学习的医学报告生成方法,其特征在于步骤(1)所述的使用改进的ViT模型提取图像特征,具体如下:对于图像使用ViT模型提取图像特征h
I
;首先,将图像x拉平成二维的图像,并切成图像块其中是图像块的个数、(P,P)是图像块的大小;由于使用标准的TransformerEncoder,因此需要将图块拉平,使用可训练的线性投影映射到可以输入Transformer Encoder的大小,并添加位置embedding以保留位置信息E
pos
,具体公式如下:z

l
=MSA(LN(z
l
‑1))+z
l
‑1,l=1...L
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式2)z
l
=MLP(LN(z

l
))+z

l
,l=1...L
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式3)h
I
=z
L
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式4)其中,改进的ViT模型是将原ViT模型的最后一层分类层去掉,得到图像特征h
I
;x
class
是一个特殊的用来整合整体信息的变量;是第i个的图像块;E是对图像块进行编码的向量;E
pos
是位置信息,对编码后的图像特征再加上位置编码;LN是Layer Normalization,层规范化;MSA是Transformer中的多头注意力;MLP是多层感知机;z是公式过程中的临时变量;h
I
是提取的图像特征;z

l
和z
l
表示中间变量,L表示层数。3.根据权利要求2所述的一种基于跨模态对比学习的医学报告生成方法,其特征在于步骤(2)所述的使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征,具体如下:对于文本其中N是文本的长度,使用预训练好的ClinicalBERT编码并通过全连接层将其映射到特征空间中,得到文本特征h
W
,具体公式如下:h
W
=MLP(BERT(y
′1,y
′2,

,y

N
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式5)其中,BERT是预训练好的Clinical BERT,MLP是多层感知机。4.根据权利要求3所述的一种基于跨模态对比学习的医学报告生成方法,图像特征和文本特征能够被映射到同一个特征空间中,因此将同一个实例中的文本特征作为图像特征
的正例,通过双塔结构的跨模态对比学习的方法进行对齐,公式如下:其中,x是关键矩阵,y是查询矩阵,τ是温度蒸馏的超参数,M是矩阵的大小;InfoNCE(x,y)是使用两个大小相同的矩阵x和y,并计算y对于x的对齐距离;loss
C1
=InfoNCE(h
I
,hW)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式7)其中,h
I
和h
W
分别是图像特征矩阵和文本特征矩阵,公式7使用InfoNCE对两个不同模态的矩阵进行对齐。5.根据权利要求4所述的一种基于跨模态对比学习的医学报告生成方法,其特征在于步骤(4)所述的将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到Decoder

L得到每个时间步的单词概率分布,具体如下:将句子生成的长期依赖交给Transformer的Decoder,将句子生成的短期依赖交给LSTM;在Decoder顶部添加一个LSTM,在Decoder和LSTM之间有一个额外的门控层Gate进行残差连接,由输入z0进行调制,同时将编码后的特征h
I
或h
W
输入至LSTM和Decoder;首先,将编码后的特征h
I
或h
W
输入LSTM进行初始化,并将当前时间步t的输入(y0,y1,

,y
t

【专利技术属性】
技术研发人员:俞俊姜威朱素果
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1