基于标签干预的CT影像报告生成方法、装置和介质制造方法及图纸

技术编号：41301202 阅读：4 留言：0更新日期：2024-05-13 14:48

本发明专利技术公开了一种基于标签干预的CT影像报告生成方法、装置和介质，该方法包括：首先针对医学图片，构建检测损失和分类损失，对图像编码器进行训练，使其实现肿块的检测功能、肺部病情特点多个标签信息的分类功能；然后根据已训编码器判断的肺部肿物标签，匹配到相应的肺部肿物术语名称，将多个术语名称拼接，生成拼接术语；再将拼接术语通过词嵌入的方式映射到向量空间，生成标签干预向量；最后将输入标识、标签干预向量和图像编码器特征一同送入解码器中，构建字幕损失，对解码器进行训练，使其能生成医学报告。本发明专利技术方法内容新颖，针对数据量少、篇幅长的真实医学数据，也能有效挖掘报告关键性信息与图像的关联，生成更优的医学报告。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及跨模态领域，尤其涉及一种基于标签干预的ct影像报告生成方法、装置和介质。

技术介绍

1、医学影像报告生成是指从医学图像中提取关键性信息，整合图像信息自动生成语句连贯的报告。在临床工作中，根据医学图像撰写报告是一项耗时且繁琐的工作。大量医学报告的撰写需要耗费大量的精力，甚至可能发生部分错漏疏忽问题。为了减轻工作量，辅助临床决策，减少误诊漏诊问题，自动医学报告生成受到越来越多的研究关注。

2、医学报告自动生成通常基于图像标题生成(image caption)的框架实现。图像标题生成框架在训练阶段使用交叉熵训练编码器-解码器模型，在测试阶段再以教师强迫(teacher forcing)的方式生成文本。这种方式存在缺陷，即容易导致文本倾向于生成标注中高频出现的字句。因为图像标题标注门槛低，句子短，可以得到大量数据，充分发挥神经网络数据驱动的能力，因此这类缺陷可以在大数据量下得到缓解。与通用的图像标题生成任务不同，医学报告的撰写涉及大量的专业知识，必须要有经验的医生才能实现，标注门槛高，能够获得的数据量十分有限，导致模型倾向于生成高频出现的字句的缺陷变得突出。同时，医学报告需要对病例的各个问题进行详细描述，往往是多个句子组成的小段落，报告生成的文字更多，增加了图像与报告信息匹配、关系提取的难度。因此，即使是最先进的图像标题生成的方法，将其直接套用在医学报告任务中，生成的效果也十分有限。为了更好地实现医学报告自动生成，医学领域的研究者们在图像标题生成的基础上实现改进，如引入对比学习(《weakly supervis

技术实现思路

1、本专利技术的目的在于针对现有技术的不足，提供一种基于标签干预的ct影像报告生成方法、装置和介质。

2、本专利技术的目的是通过以下技术方案来实现的：本专利技术实施例第一方面提供了一种基于标签干预的ct影像报告生成方法，包括以下步骤：

3、步骤s1、对病例数据的肿物位置进行矩形框标注，并根据病例数据的病情特点，提取多个医学标签，并构建与医学标签一一匹配的医学术语名称，以构建肺部ct医学影像数据集；

4、步骤s2、构建视觉神经网络，其中视觉神经网络包括图像编码器、检测分支和多标签分类分支；肺部ct医学影像数据集中的ct医学影像统一尺寸后输入视觉神经网络中，预测的肿物检测框和多个医学标签对应的预测类别，并基于肿物检测框构建检测损失，基于医学标签构建多标签分类损失，整合检测损失和多标签分类损失，对视觉神经网络进行协同训练，以获取训练好的视觉神经网络；

5、步骤s3、将ct医学影像输入训练好的视觉神经网络中，获取对应的视觉编码特征、肿物检测框和多个医学标签对应的预测类别；针对各个预测类别获取其对应的医学术语名称，将多个医学术语名称进行拼接，生成拼接术语；

6、步骤s4、将拼接术语通过词嵌入的方式映射到向量空间，生成标签干预矩阵；

7、步骤s5、将输入标识通过词嵌入的方式映射成输入矩阵，将标签干预矩阵和输入矩阵拼接后与视觉编码特征一同输入解码器中，获取输出的文本特征，并构建字幕损失，对解码器进行训练，使其生成医学报告。

8、进一步地，所述医学标签包括肿物左右肺位置、肿物上下叶位置、肿物毛刺情况、肿物类型以及是否胸膜侵犯。

9、进一步地，所述步骤s1具体包括：

10、给定n个病例数据的ct影像数据，根据病例数据的病情特点，提取多个医学标签；

11、对于每个病例数据的ct影像数据，对其肿物位置进行矩形框标注，以形式记录肿物的中心位置和大小信息，其中分别表示标注框的中心横向位置、中心纵向位置、框宽、框高；构建与医学标签一一匹配的医学术语名称，使用[pad]标识在医学术语名称的尾部进行填充，以使每个医学标签不同类别的医学术语名称长度一致；

12、重复上述过程完成n个病例数据的处理，以构建肺部ct医学影像数据集。

13、进一步地，所述构建视觉神经网络具体包括：使用残差50神经网络作为图像编码器，肺部ct医学影像数据集中的ct医学影像统一尺寸后输入图像编码器中，获取视觉编码特征；使用区域建议神经网络作为检测分支，使用多个全连接层作为多标签分类分支，视觉编码特征分别送入检测分支和多标签分类分支中，分别获取预测的肿物检测框和多个医学标签对应的预测类别；

14、所述图像编码器的编码过程表示为：

15、f＝f(i,θe)∈rd×h×w

16、其中，f表示视觉编码特征，f()表示特征编码操作，i表示ct医学影像样本，ie表示特征编码器的可训练参数，d、h、w分别表示视觉编码特征的特征深度、特征高、特征宽信息。

17、进一步地，所述检测损失的计算公式为：

18、tx＝(cx-ax)/aw，ty＝(cy-ay)/ah

19、tw＝log(cw/aw)，th＝log(ch/ah)

20、

21、

22、

23、ldetect＝lx+ly+lw+lh

24、其中，cx、cy、cw、ch分别表示预测的肿物检测框的中心横向位置、中心纵向位置、框宽、框高；分别表示真值标注框的中心横向位置、中心纵向位置、框宽、框高；ax、ay、aw、ah分别表示锚框的中心横向位置、中心纵向位置、框宽、框高；δ表示x、y、w、h的符号替代；tδ表示tx、ty、tw、th，均为中间变量，无实际意义；表示均为中间变量，无实际意义；lδ表示lx、ly、lw、lh，lx、ly、lw、lh分别表示肿物的中心横向位置、中心纵向位置、框宽、框高的损失；ldetect表示检测损失；

25、所述多标签分类损失的计算公式为：

26、

27、其中，lstruct表示多标签分类损失，s表示医学标签的总个数，表示肺部ct医学影像数据集中的ct医学影像第si个真值医学标签的独热编码形式，t表示转置操作，psi表示肺部ct医学影像数据集中的ct医学影像第s本文档来自技高网...

【技术保护点】

1.一种基于标签干预的CT影像报告生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于标签干预的CT影像报告生成方法，其特征在于，所述医学标签包括肿物左右肺位置、肿物上下叶位置、肿物毛刺情况、肿物类型以及是否胸膜侵犯。

3.根据权利要求1所述的基于标签干预的CT影像报告生成方法，其特征在于，所述步骤S1具体包括：

4.根据权利要求1所述的基于标签干预的CT影像报告生成方法，其特征在于，所述构建视觉神经网络具体包括：使用残差50神经网络作为图像编码器，肺部CT医学影像数据集中的CT医学影像统一尺寸后输入图像编码器中，获取视觉编码特征；使用区域建议神经网络作为检测分支，使用多个全连接层作为多标签分类分支，视觉编码特征分别送入检测分支和多标签分类分支中，分别获取预测的肿物检测框和多个医学标签对应的预测类别；

5.根据权利要求1所述的基于标签干预的CT影像报告生成方法，其特征在于，所述检测损失的计算公式为：

6.根据权利要求1所述的基于标签干预的CT影像报告生成方法，其特征在于，所述步骤S3具体包括：将CT医学影像

7.根据权利要求1所述的基于标签干预的CT影像报告生成方法，其特征在于，所述步骤S4具体包括：构建可训练的词嵌入矩阵E(M1,M2)，其中M1表示医学报告涉及的所有文字和分隔符等各类符号的总数目，M2表示矩阵特征维度，矩阵E包含了医学报告涉及到的所有文字和各类符号的可训练特征向量；将拼接术语中的每个字，通过词嵌入矩阵E得到对应的特征向量，拼接生成的所有特征向量，获得标签干预矩阵Einter。

8.根据权利要求1所述的基于标签干预的CT影像报告生成方法，其特征在于，所述解码器包括多个变换网络块，每个变换网络块同时包含自注意力机制层和交叉注意力机制层，对于每个变换网络块，将上一个变换网络块输出的文本特征送入自注意力机制层，再将自注意力机制层的输出特征与视觉编码特征一同送入交叉注意力机制层，获取当前变换网络块输出的文本特征；其中第一个变换网络块的输入文本特征为标签干预矩阵Einter和输入矩阵的拼接结果，输入矩阵通过将输入标识通过步骤S4构建的词嵌入矩阵映射而成；

9.一种基于标签干预的CT影像报告生成装置，包括一个或多个处理器和存储器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现权利要求1-8中任一项所述的基于标签干预的CT影像报告生成方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-8中任一项所述的基于标签干预的CT影像报告生成方法。

...

【技术特征摘要】

1.一种基于标签干预的ct影像报告生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于标签干预的ct影像报告生成方法，其特征在于，所述医学标签包括肿物左右肺位置、肿物上下叶位置、肿物毛刺情况、肿物类型以及是否胸膜侵犯。

3.根据权利要求1所述的基于标签干预的ct影像报告生成方法，其特征在于，所述步骤s1具体包括：

4.根据权利要求1所述的基于标签干预的ct影像报告生成方法，其特征在于，所述构建视觉神经网络具体包括：使用残差50神经网络作为图像编码器，肺部ct医学影像数据集中的ct医学影像统一尺寸后输入图像编码器中，获取视觉编码特征；使用区域建议神经网络作为检测分支，使用多个全连接层作为多标签分类分支，视觉编码特征分别送入检测分支和多标签分类分支中，分别获取预测的肿物检测框和多个医学标签对应的预测类别；

5.根据权利要求1所述的基于标签干预的ct影像报告生成方法，其特征在于，所述检测损失的计算公式为：

6.根据权利要求1所述的基于标签干预的ct影像报告生成方法，其特征在于，所述步骤s3具体包括：将ct医学影像输入训练好的视觉神经网络中，获取对应的视觉编码特征、肿物检测框和多个医学标签对应的预测概率向量；利用预测概率向量获取每个医学标签的预测类别，根据预测类别获取其对应的医学术语名称；将多个医学标签对应的医学术语名称进行拼接，使用分隔符[sep]将各个医学标签的医学术语名称间隔开，以生成拼接术语；其中第si个医学标签的预测类别csi表示为...

【专利技术属性】
技术研发人员：苏慧，胡丹青，朱晓峰，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人