基于复习网络的内窥镜影像报告生成方法及存储介质技术

技术编号:37190471 阅读:21 留言:0更新日期:2023-04-20 22:52
本发明专利技术的一种基于复习网络的内窥镜影像报告生成方法及存储介质,该方法包括:下载并处理预训练数据,获取他们的标签;集预训练骨干分类RESNET网络,获得适合内窥镜图像的初始参数;训练目标检测与特征提取网络N1;利用目标检测与特征提取网络N1训练加入了复习网络模块的自注意力文本生成网络;训练文本特征提取网络与注意力机制网络及视觉门控网络;将上述网络联合进行生成报告。本发明专利技术采用了transformer用于充分发掘输入图像特征的关系,采用了获得良好初始权重的FASTER

【技术实现步骤摘要】
基于复习网络的内窥镜影像报告生成方法及存储介质


[0001]本专利技术涉及人工智能
,具体涉及一种基于复习网络的内窥镜影像报告生成方法及存储介质。

技术介绍

[0002]如何通过医疗科技和人工智能减轻医生的负担,改善患者就医体验,是医疗科技企业孜孜以求的目标。内窥镜可以经口腔进入胃内或经其他天然孔道进入体内,可以看到X射线不能显示的病变,对常规肠胃疾病的治疗乃至早期癌症的诊断有重要意义。通常在患者进行影像扫描后,医生会出具一份包含患者基本信息,病史,影像学表现、影像学诊断的影像报告,对于经验丰富的医生,一天书写数百份报告无疑是巨大负担,而对于占大部分人口的经济较为落后区域,难以找到优秀的医生书写详尽的报告,为患者治疗提供足够的进一步治疗指导。

技术实现思路

[0003]本专利技术提出的一种基于复习网络的内窥镜影像报告生成方法,提供一种能够自动读取内窥镜检查图像并生成语义通顺、描述较为准确符合医疗行业语言的影像报告的生成方法、装置、计算机设备和存储介质。它能够很好地适应于肠胃等不同的内窥镜检查环境,从而实现在各种环境下依然可以进行准确的影像报告自动生成。
[0004]为实现上述目的,本专利技术采用了以下技术方案:
[0005]一种基于复习网络的内窥镜影像报告生成方法,包括以下步骤,
[0006]S1、下载并处理预训练数据,获取他们的标签;
[0007]S2、利用前述数据集预训练骨干分类RESNET网络,获得适合内窥镜图像的初始参数;
[0008]S3、用正式数据集和前步获得的骨干分类RESNET网络,训练目标检测与特征提取网络N1;
[0009]S4、利用目标检测与特征提取网络N1训练加入了复习网络模块的自注意力文本生成网络;
[0010]S5、训练文本特征提取网络与注意力机制网络及视觉门控网络;
[0011]S6、将步骤s4,s5的网络联合,形成完整模型在新的内窥镜数据上进行生成报告。
[0012]进一步的,所述预训练的骨干分类RESNET网络采用残差神经网络RESNET

50,包含了49个卷积层、一个全连接层;Resnet50网络结构分成七个部分,第一部分不包含残差块,对输入进行卷积、正则化、激活函数、最大池化的计算;
[0013]第二、三、四、五部分结构都包含了残差块,在Resnet50网络结构中,残差块都有三层卷积,网络的输入为224
×
224
×
3,经过前五部分的卷积计算,输出为7
×7×
2048,第六部分池化层会将其转化成一个特征向量,最后一部分分类器会对这个特征向量进行计算并输出类别概率。
[0014]进一步的,所述正式训练集来自系统配套的存储系统,图片被重新压缩为224
×
224的彩色图像,其文本将经过包括去除数字,特殊符号这些处理,最后采用词嵌入技术获得各个单词的向量表示。
[0015]进一步的,所述目标检测与特征提取网络N1采用FASTER

RCNN网络,它包括:
[0016]卷积特征提取层骨架网络,采用前述RESNET 50作为卷积层骨干,它将使用一系列卷积,relu函数非线性输出以及池化生成该图像的特征图,该特征图被共享用于后续建议层和全连接层;
[0017]区域建议网络;该网络用于生成目标所在区域的建议;该层首先通过全连接层和逻辑回归函数判断该区域有没有目标,而后进行精细调整获得目标位置;
[0018]池化层;该层收集输入的特征图和区域讲义,综合这些信息后送入后续全连接层判定目标类别;
[0019]分类层,利用池化层传来的信息计算这个区域的类别,同时再次使用全连接层精修目标位置,获得精确的位置四元组(x
i
,y
i
,z
i
,t
i
)。
[0020]进一步的,所述步骤S4中复习网络模块包括一个双层长短期记忆网络为核心融合两个注意力模块与视觉门控模块,而后整合到一套以全连接层为基础的复杂网络中,为每一个句子设置一个特殊的结束标志Sstop,当第二层遇到Sstop时生成结束,在训练网络之前,预先将训练文本集中的单词经过词嵌入转化为词向量,训练时LSTM1子模块负责在每一步接收编码器输出的图像特征与解码器输出的本次文本特征,LSTM1子模块的初始化也通过全局平均图像特征完成;
[0021]还包括LSTM2子模块负责接收来自低层子模块带有权重的,视觉、文本综合向量,来自复习模块下方的自注意力网络解码器输出经由全连接层的softmax函数处理后生成一个新的权重向量作为自注意力解码阶段的实际输出,与编码的输入结合构成自注意力三个分量进行下一步运算。
[0022]进一步的,所述S1、下载并处理预训练数据,获取他们的标签,具体包括:
[0023]接收任一内窥镜检测图像输入I,并经由一系列算法生成语义通顺满足设定要求的报告Y=(y1,y2,...y
t
),其中t为报告长度,使用ARCH数据集进行预训练,从专业的医学期刊和医学教科书中提取的涵盖内容广泛的图片及其配套说明的多实例图像注释、多标签分类,专为计算机辅助病理学设计的数据集,并将所有图像尺寸调整为224*224,将对应文本抽取去除所有文本的非英文单词词汇和特殊符号,并将数据集以80%、10%、10%的比例分为训练集、验证集与测试集。
[0024]进一步的,所述S2、利用前述数据集预训练骨干分类RESNET网络,获得适合内窥镜图像的初始参数,具体包括:
[0025]首先将每张图片配套的文本使用NLM Medical Text Indexer提取其关键词,而后筛选出频率最高的1000个关键词充当分类标签,将对应的图片分到该类别下构建多类别分类预训练数据集,同时保证同一张图片不出现在不同类别里,这样预训练集构建完成,而后用RESNET50在预训练集上基于前述生成的标签类别在输出端使用进行单标签分类训练,获得RESNET50适用于医学图像的参数权重存于存储器中用于后续特征提取的预训练参数。
[0026]进一步的,所述S3、用正式数据集和前步获得的骨干分类RESNET网络,训练目标检测与特征提取网络N1,具体包括:
[0027]进行视觉特征的提取,规格化为224
×
224
×
3的正式训练集图像I首先经过FASTER

RCNN网络生成一系列目标区域框,将图片在各自目标区域框内的各个像素点数字化后经平均池化到统一的固定维度d,表示为向量组V=(V1,V2,...V
i
),i为最终视觉特征的数量,在resnet50与目前的输入尺寸下,其为49,成为视觉特征,同时FASTER

RCNN还将生成各个目标的几何位置,分别为目标的左上角相对坐标值与中心坐标值(x
i
,y
i
,z
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于复习网络的内窥镜影像报告生成方法,其特征在于,包括以下步骤,S1、下载并处理预训练数据,获取他们的标签;S2、利用前述数据集预训练骨干分类RESNET网络,获得适合内窥镜图像的初始参数;S3、用正式数据集和前步获得的骨干分类RESNET网络,训练目标检测与特征提取网络N1;S4、利用目标检测与特征提取网络N1训练加入了复习网络模块的自注意力文本生成网络;S5、训练文本特征提取网络与注意力机制网络及视觉门控网络;S6、将步骤s4,s5的网络联合,形成完整模型在新的内窥镜数据上进行生成报告。2.根据权利要求1所述的基于复习网络的内窥镜影像报告生成方法,其特征在于:所述预训练的骨干分类RESNET网络采用残差神经网络RESNET

50,包含了49个卷积层、一个全连接层;Resnet50网络结构分成七个部分,第一部分不包含残差块,对输入进行卷积、正则化、激活函数、最大池化的计算;第二、三、四、五部分结构都包含了残差块,在Resnet50网络结构中,残差块都有三层卷积,网络的输入为224
×
224
×
3,经过前五部分的卷积计算,输出为7
×7×
2048,第六部分池化层会将其转化成一个特征向量,最后一部分分类器会对这个特征向量进行计算并输出类别概率。3.根据权利要求1所述的基于复习网络的内窥镜影像报告生成方法,其特征在于:所述正式训练集来自系统配套的存储系统,图片被重新压缩为224
×
224的彩色图像,其文本将经过包括去除数字,特殊符号这些处理,最后采用词嵌入技术获得各个单词的向量表示。4.根据权利要求1所述的基于复习网络的内窥镜影像报告生成方法,其特征在于:所述目标检测与特征提取网络N1采用FASTER

RCNN网络,它包括:卷积特征提取层骨架网络,采用前述RESNET 50作为卷积层骨干,它将使用一系列卷积,relu函数非线性输出以及池化生成该图像的特征图,该特征图被共享用于后续建议层和全连接层;区域建议网络;该网络用于生成目标所在区域的建议;该层首先通过全连接层和逻辑回归函数判断该区域有没有目标,而后进行精细调整获得目标位置;池化层;该层收集输入的特征图和区域讲义,综合这些信息后送入后续全连接层判定目标类别;分类层,利用池化层传来的信息计算这个区域的类别,同时再次使用全连接层精修目标位置,获得精确的位置四元组(x
i
,y
i
,z
i
,t
i
)。5.根据权利要求1所述的基于复习网络的内窥镜影像报告生成方法,其特征在于:所述步骤S4中复习网络模块包括一个双层长短期记忆网络为核心融合两个注意力模块与视觉门控模块,而后整合到一套以全连接层为基础的复杂网络中,为每一个句子设置一个特殊的结束标志 ,当第二层遇到 时生成结束,在训练网络之前,预先将训练文本集中的单词经过词嵌入转化为词向量,训练时LSTM1子模块负责在每一步接收编码器输出的图像特征与解码器输出的本次文本特征,LSTM1子模块的初始化也通过全局平均图像特征完成;还包括LSTM2子模块负责接收来自低层子模块带有权重的,视觉、文本综合向量,来自复习模块下方的自注意力网络解码器输出经由全连接层的softmax函数处理后生成一个新
的权重向量作为自注意力解码阶段的实际输出,与编码的输入结合构成自注意力三个分量进行下一步运算。6.根据权利要求1所述的基于复习网络的内窥镜影像报告生成方法,其特征在于:所述S1、下载并处理预训练数据,获取他们的标签,具体包括:接收任一内窥镜检测图像输入I,并经由一系列算法生成语义通顺满足设定要求的报告Y=(y1,y2,...y
t
),其中t为报告长度,使用ARCH数据集进行预训练,从专业的医学期刊和医学教科书中提取的涵盖内容广泛的图片及其配套说明的多实例图像注释、多标签分类,专为计算机辅助病理学设计的数据集,并将所有图像尺寸调整为224*224,将对应文本抽取去除所有文本的非英文单词词汇和特殊符号,并将数据集以80%、10%、10%的比例分为训练集、验证集与测试集。7.根据权利要求6所述的基于复习网络的内窥镜影像报告生成方法,其特征在于:所述S2、利用前述数据集预训练骨干分类RESNET网络,获得适合内窥镜图像的初始参数,具体包括:首先将每张图片配套的文本使用NLM Medical Text Indexer提取其关键词,而后筛选出频率最高的1000个关键词充当分类标签,将对应的图片分到该类别下构建多类别分类预训练数据集,...

【专利技术属性】
技术研发人员:韩龙飞韩军伟吴英杰徐晨初张鼎文张贺晔屈亚威
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1