训练肺部内窥镜图像识别模型的方法及识别方法技术

技术编号:35744788 阅读:15 留言:0更新日期:2022-11-26 18:49
本发明专利技术公开了训练肺部内窥镜图像识别模型的方法及识别方法,所述方法包括数据集的构建和神经网络模型的构建,并在构建的识别模型的方法上进行肺部内窥镜图像识别,所述神经网络模型为YOLOv5模型结合LSTM构建而成的SeqYOLO,来对内窥镜视频进行识别,即通过人工智能深度学习算法来训练出专用于识别肺部内窥镜的模型,医生在使用搭载了此项技术的内窥镜时,可通过终端屏幕直观得知内窥镜所处位置信息,减少人为判断的时间,提升手术的效率,缩短手术时长,减少病人的痛苦。减少病人的痛苦。减少病人的痛苦。

【技术实现步骤摘要】
训练肺部内窥镜图像识别模型的方法及识别方法


[0001]本专利技术涉及神经网络
,尤其涉及一种训练肺部内窥镜图像识别模型的方法及识别方法。

技术介绍

[0002]肺部内窥镜检查是将细长的内窥镜经口或鼻置入患者的下呼吸道,即经过声门进入气管和支气管以及更远端,直接观察气管和支气管的病变,并根据病变进行相应的检查和治疗。
[0003]肺部气管和支气管结构类似倒置的一株大树,有许多的分岔口,即时经过专业训练的外科医生,在检查过程中容易迷路,因此手术时间变长,延长了病人手术过程中的不适感,只有经验丰富的医生才能对手术得心应手。
[0004]现阶段只靠人工观察内窥镜图像判断所处位置,寻找前进的管道,容易因经验不足导致无法准确判断内窥镜当前所处位置。

技术实现思路

[0005]本专利技术目的在于提供一种通过内窥镜图像自动识别并标注内窥镜探头当前所处的肺部气管位置的训练肺部内窥镜图像识别模型的方法及识别方法。
[0006]为实现上述目的,本专利技术的技术方案如下:一种训练肺部内窥镜图像识别模型的方法,方法包括数据集的构建和神经网络模型的构建,并通过构建的数据集的80%的样本数据对神经网络模型进行训练,训练完成后通过数据集的剩下的20%的样本数据进行检验后进行部署,并使用mAP0.5 作为在内窥镜图像目标检测任务上衡量准确度的评价指标。
[0007]数据集的构建为:从若干支气管镜视频中截取的若干清晰的支气管镜图像,并分为多个类别,继而通过绘制一个或多个边界框的方式进行标记,最后通过数据增强的方式构建而成;数据集进行数据增强包括增强强度高中低三个不同等级;神经网络模型为YOLOv5模型结合LSTM构建而成的SeqYOLO;SeqYOLO的代码以YOLOv5来建立基准,由YOLOv5部分提供目标检测能力,同时引入了新的LSTM模块来学习到视频中具有时间序列关系的信息;SeqYOLO将一个视频序列中的每一帧分别通过YOLO backbone得到图像特征值,并将这些特征值使用LSTM模型进行计算,以学习到视频中具有时间序列关系的信息,LSTM在读取完整个序列的图像特征值后会输出一个进行推理的图像对应的图像特征值,YOLO系列算法中的 head组件,使用该图像特征值进行推理并计算出具体的图像检测框与框中物体类别。
[0008]借由上述内容,通过若干支气管镜视频中截取的若干清晰的支气管镜图像,每张图片均对应支气管镜视频中的一帧,该帧在视频时间轴的前后均包含其它帧,将前后的其
YOLO head两部分权重迁移至SeqYOLO中对应部分,能够显著提高模型的训练效率。
[0017]优选的,SeqYOLO模型继续训练时,将在第一阶段将视频中具有标注的最后一帧使用YOLOv5模型进行学习,通过在加载数据时进行随机数据增强;在模型的正向传播中,这些数据增强后的图片首先经过YOLOv5 Backbone的特征提取,然后进入YOLOv5 Head 预测具体的检测框位置与物体类别;在模型的反向传播中,使用的 PyTorch 深度学习框架会进行自动求导计算,以通过随机批量梯度下降法更新模型权重,训练时采用 SGD 优化器,学习率设置为0.01,动量设置为0.937,在训练过程中使用了OneCycleLR 学习率规划策略,让学习率在最开始从零逐渐上升至设置的学习率0.01,再在后续的收敛过程中缓慢下降。
[0018]由此可见,通过数据增强方式是在加载数据时进行随机数据增强,这种数据增强方式相比传统的数据增强具有节约存储空间,数据增强产生的不同样本量多并且不会重复的优点,在训练过程中使用了OneCycleLR 学习率规划策略,这种学习率规划策略可以让学习率在最开始从零逐渐上升至设置的学习率0.01,再在后续的收敛过程中缓慢下降,这种学习率规划策略可以避免模型因为过高的学习率在刚开始训练时发生梯度消失,进而导致模型无法收敛的问题。
[0019]优选的,SeqYOLO 训练阶段,先将前一个阶段训练好的模型权重迁移至 SeqYOLO 中的 YOLOv5 Backbone 与 YOLOv5 Head 组件中,经过前一阶段的训练,这两个组件各自已经具有提取内窥镜图像特征与根据提取的图像特征进行目标预测与目标分类的能力,SeqYOLO每次的输入数据为一个长度为20帧的视频序列,其中最后一个视频帧是需要预测的内窥镜影像,SeqYOLO 模型的输出为对目标帧,即20帧视频输入序列中的最后一帧的目标预测结果,模型在得到一个长度为20帧的图像序列后,同时将所有图像通过同一个 YOLOv5 Backbone 进行特征提取,最终得到20组不同的特征值,与原来的20帧图像依次对应,这20组不同的特征值接着会进入 LSTM 模块进行序列信息学习,在此阶段,内窥镜运动至当前位置之前的图像信息会被关注,当LSTM接受完20组不同的特征值后,会输出一个经过编码的特征值,该特征值的格式与YOLO Backbone的输出相同,继而直接使用 YOLO Head 进行目标位置及类别计算,将这个经过LSTM编码的特征值输入YOLO Head 计算后得到最终的目标位置信息与类别信息预测结果;SeqYOLO模型的优化方式也是经过正向传播后反向传播以更新模型权重,优化器采用 Adam 方法并将学习率设置为 0.001,学习率规划策略使用OneCycleLR。
[0020]优选的,SeqYOLO添加有注意力模块,并包括三种注意力模块,分别是基于CBAM的注意力模块、视觉Transformer模型ViT、SWIN Transformer。
[0021]由此可见,通过对模型结构进行了改进,通过添加注意力模块让模型具有更强的学习能力,注意力模块可以让模型主动关注图片中重要的上下文信息,这些上下文信息对目标检测模型准确度有重要作用,同时借助注意力机制,可以生成图像注意力热力图,以提示医生关注图像中可能需要注意的细节。
[0022]一种肺部内窥镜图像识别方法,方法包括:获取待识别的肺部内窥镜图像;肺部内窥镜图像识别模型对待识别的肺部内窥镜图像进行识别,其中,肺部内窥镜图像识别模型是基于权利要求1

8中的任一项的训练图像识别模型的方法训练得到的。
[0023]优选的,方法还设有推理计算,推理计算根据人体肺部结构图编写规则。
[0024]本专利技术用于医生进行内窥镜操作时的辅助,因此对实时计算要求较高,为此使用了轻量化的模型,以达到毫秒级的推理延迟,通过对数据集的适配与推理部署优化,基于轻量化的YOLOv5n模型构建了系统中使用的目标检测模型,模型在本任务上经过的针对性优化,能够比其它高延迟大模型具有更高的mAP0.5值,即在缩短推理时间的同时提升了检测准确度。
[0025]本专利技术通过人工智能深度学习算法来训练出专用于识别肺部内窥镜的模型,医生在使用搭载了此项技术的内窥镜时,可通过终端屏幕直观得知内窥镜所处位置信息,减少人为判断的时间,提升手术的效率,缩短手术时长,减少病人的痛苦。
附图说明
[0026]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练肺部内窥镜图像识别模型的方法,其特征在于:所述方法包括数据集的构建和神经网络模型的构建,并通过构建的数据集的80%的样本数据对神经网络模型进行训练,训练完成后通过数据集的剩下的20%的样本数据进行检验后进行部署,并使用mAP0.5 作为在内窥镜图像目标检测任务上衡量准确度的评价指标;所述数据集的构建为:从若干支气管镜视频中截取的若干清晰的支气管镜图像,并分为多个类别,继而通过绘制一个或多个边界框的方式进行标记,最后通过数据增强的方式构建而成;所述数据集进行数据增强包括增强强度高中低三个不同等级;所述神经网络模型为YOLOv5模型结合LSTM构建而成的SeqYOLO;所述SeqYOLO的代码以YOLOv5来建立基准,由YOLOv5部分提供目标检测能力,同时引入了新的LSTM模块来学习到视频中具有时间序列关系的信息;所述SeqYOLO将一个视频序列中的每一帧分别通过YOLO backbone得到图像特征值,并将这些特征值使用LSTM模型进行计算,以学习到视频中具有时间序列关系的信息,LSTM在读取完整个序列的图像特征值后会输出一个进行推理的图像对应的图像特征值,YOLO系列算法中的 head组件,使用该图像特征值进行推理并计算出具体的图像检测框与框中物体类别。2.根据权利要求1所述的一种训练肺部内窥镜图像识别模型的方法,其特征在于:所述数据集分类包含18个类别,分别为:会厌软骨、声带、主气管、左主支气管、隆突、右主支气管、左上叶支气管、左下叶支气管、右上叶支气管、右中间支气管、右下叶支气管、左固有上叶支气管、左舌叶支气管、左下叶背段支气管、左下叶基底段支气管、右中叶气管、右下叶基底段支气管和右下叶背段支气管。3.根据权利要求1所述的一种训练肺部内窥镜图像识别模型的方法,其特征在于:所述YOLOv5模型结构主要分为两部分,分别为用来提取信息的YOLOv5 Backbone 与用来回归检测框的独立的YOLOv5模块,称为YOLOv5 Head。4.根据权利要求1所述的一种训练肺部内窥镜图像识别模型的方法,其特征在于:所述SeqYOLO在读入连续的视频帧信息后,给出最后一个帧图像的预测结果,即首先使用YOLO backbone 对图像进行特征提取,并将得到的特征值输入LSTM模型进行时间序列学习,LSTM中学习每一帧的特征信息,并保留对下一帧预测有用的信息,在读入最后一帧后,LSTM会输出最后综合前面所有帧信息与最后一帧信息的整体视频片段特征值,该特征值将会使用YOLO head结构进行检测框与对象类别的识别。5.根据权利要求1所述的一种训练肺部内窥镜图像识别模型的方法,其特征在于:SeqYOLO模型的训练分为两个阶段:第一阶段、先使用YOLOv5模型对单张有标签的图片进行训练,使mAP0.5达到一个相对准确的值,在该阶段获得到模型的backbone和head两个组件的权重,用于下一阶段模型权重的初始化;第二阶段、构建的SeqYOLO模型将前一个阶段获得的YOLO backbone和 YOLO head两部分权重迁移至SeqYOLO中对应部分,该阶段训练使用视频数据进行训练,即为连续的视频帧输入模型,采用了间隔取帧的方法获得20帧的图像输入进SeqYOLO...

【专利技术属性】
技术研发人员:方传煜严建祺刘淳奇
申请(专利权)人:珠海市圈宝网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1