内窥镜图像数据集构建方法技术

技术编号:27305167 阅读:15 留言:0更新日期:2021-02-10 09:15
内窥镜图像数据集构建方法。本发明专利技术提供一种图像数据集构建方法,所述方法包括:对原始图像进行预处理,以获得标准规格图像集;从所述标准规格图像集中去除冗余图像,以获得精简图像集;对所述精简图像集中的每个图像标注标识符;已及整合所述精简图像集中具有所述至少一个标识符的每幅图像。一个标识符的每幅图像。一个标识符的每幅图像。

【技术实现步骤摘要】
内窥镜图像数据集构建方法


[0001]本申请涉及图像数据集构建方法,特别涉及胶囊内窥镜图像数据集构建方法。

技术介绍

[0002]胶囊内窥镜,或称无线内镜,由微型照相机、数字处理系统和无线收发系统等组成。受检者将胶囊内窥镜吞咽入体内后,胶囊内窥镜拍摄受检者的消化道图像,并将消化道图像经无线传送到体外的接收器。胶囊内窥镜能无创地进入人体,用于窥探人体肠胃和食道部位的状况,用来协助医生对病人消化道系统疾患进行诊断。
[0003]胶囊内窥镜可以生成视频图像。一次完整的内窥镜检查,可以生成大约超过8小时的视频图像记录,在使用每秒2帧的记录形式的情况下,视频中将包含大约60000幅图像。其中,大部分图像为可能是对应于受检者身体健康部位的正常图像,反映病症的图像大约占总的图像的5%,而将反映病症的图像筛选出,则需要对全部图样作逐一判读,工作量大,效率低,误差率高。另外,胶囊内窥镜依靠胃肠动力在胃肠道内移动,使得成像条件变化多端,因此成像复杂度高,需要对生成的图像进行整理。
[0004]目前的胶囊内窥镜图像分析,有一些辅助判读工具,例如,深度神经网络的发展为内窥镜图像的辅助判读提供了有效的工具。但是数据集的缺乏和数据集生成方法的随意性,使得神经网络的判读方法受到很大的局限。优质的胶囊内窥镜数据集不但可以提供深度学习的基础,也可以作为图谱,用于医生学习的辅助工具。

技术实现思路

[0005]本专利技术提供一种内窥镜图像数据集构建方法,所述方法包括:对内窥镜拍摄的原始图像进行预处理,以获得标准规格图像集;从所述标准规格图像集中去除冗余图像,以获得精简图像集;对所述精简图像集中的每个图像标注标识符;已及整合所述精简图像集中具有所述至少一个标识符的每幅图像。
[0006]优选地,所述从标准规格图像集中去除冗余图像包括:获得所述标准规格图像集中每个图像的哈希值;计算所述标准规格图像集中任意两幅图像的汉明距离;将所述任意两幅图像的汉明距离与预设阈值进行比对,如果汉明距离大于或等于阈值,则将该两幅图像均标注为保留图像,如果汉明距离小于阈值,则将该两幅图像中的一幅标注为冗余图像,将该两幅图像中的另一幅标注为保留图像;基于所述保留图像生成所述精简图像集。
[0007]优选地,所述对所述精简图像集中的每个图像标注标识符包括:对精简图像集中的每个精简单幅图像标注第一标识符,所述第一标识符包含受检者病灶位置的信息;对精简图像集中的每个精简单幅图像标注第二标识符,所述第二标识符包含受检者病灶类型的信息;对精简图像集中的每个精简单幅图像标注第三标识符,所述第三标识符包含受检者病灶涉及病症的信息;对精简图像集中的每个精简单幅图像标注第四标识符,所述第四标识符包含某幅图像拍摄点在受检者消化道具体位置的信息。
附图说明
[0008]图1是根据本专利技术一个实施例的内窥镜图像数据集构建方法的流程示意图。
[0009]图2是图1所示方法中图像预处理的流程示意图。
[0010]图3是图1所示方法中从标准规格图像集中去除冗余图像的流程示意图。
[0011]图4是图1所示方法中对精简图像集中的每个图像标注标识符的流程示意图。
[0012]图5A至5L是根据本专利技术方法处理的内窥镜拍摄的原始图像示例。
[0013]图6A至6L是对图5A至5L进行预处理后获得的标准规格图像示例。
[0014]图7是根据本专利技术另一实施例的内窥镜图像数据集构建方法的流程示意图。
[0015]图8是图7所示方法中确定新增图像加入数据集的判断流程示意图。
[0016]图9A是图7所示方法处理的内窥镜拍摄的原始图像的新增图像示例。
[0017]图9B是图9A经预处理后的标准规格图像。
具体实施方式
[0018]容易理解的是,除了所描述的示例实施例之外,如本文附图中一般描述和示出的实施例的组件可以以各种不同的配置来布置和设计。因此,如结合附图所表示的示例实施例的以下更详细描述并非旨在限制所要求保护的实施例的范围,而仅仅是示例实施例的代表。
[0019]本说明书中对“一个实施例”、“另一个实施例”或“实施例”(或类似描述)的引用意味着结合该实施例描述的特定特征、结构或特性包括在至少一个实施例中。因此,贯穿本说明书在各个地方出现的短语“在一个实施例中”或“在实施例中”等不可以是指代相同的实施例,也可以是指代不同的实施例。
[0020]此外,所描述的特征、结构或特性可以在一个或多个实施例中以任何合适的方式组合。在以下描述中,提供了许多具体细节以给出对实施例的透彻理解。相关领域的技术人员将认识到,在没有一个或多个具体细节的情况下,或在其他方法、组件、材料等的情况下,可以实践各种实施例。即在其他情况下,一些或所有已知的结构、材料或操作可以未被详细显示或描述以避免混淆。
[0021]本专利技术提供一种胶囊内窥镜图像数据集构建方法,包括原始图像预处理、去重、标注、规则化、新增图像添加处理等,生成胶囊内窥镜图像数据集,可用于深度学习方式的胶囊内窥镜视频图像的辅助判读,也可以作为相关领域医生的培训图谱。
[0022]如图1所示,根据一个实施例,本专利技术的胶囊内窥镜图像数据集构建方法100,包括对原始胶囊内窥镜图像进行预处理(图框110),以获得标准规格的图像集;将标准规格图像集中的冗余图像,例如重复图像或近似图像去除,以获得精简图像集(图框120);对精简图像集中的每个精简图像进行标注(图框130);整合所述精简图像集中具有所述至少一个标识符的每幅图像(图框140),构建内窥镜图像数据集190。
[0023]如图2所示,图1所示的胶囊内窥镜图像数据集构建方法100中的原始图像预处理110,包括对每一幅原始图像进行格式转换(图框111);A2.尺寸调整(图框112);A3.亮度调整(图框113);A4.噪点消除(图框114)以及A5.裁剪处理(图框115),以获得标准规格的图像。经预处理后的多个标准规格单幅图像,生成标准规格图像集119。
[0024]如图3所示,图1所示的胶囊内窥镜图像数据集构建方法100中的将标准规格图像
集119的图像去重处理120,包括获得标准规格图像集中每个图像的哈希值(图框121);基于每个图像的哈希值,计算标准规格图像集中的任意两幅图像的汉明距离(图框122);将任意两幅图像的汉明距离与预设的阈值进行比对(图框123);如果汉明距离大于阈值,则保留该两幅图像(图框124);如果汉明距离小于阈值,则该两幅图像中的一幅被判定为冗余图像,例如重复图像或近似图像(图框125),从而去除该冗余图像,即保留另一幅图像(图框126)。根据上述步骤对标准规格图像集119中的全部图像进行处理后,得到的保留图像则生成精简图像集129。
[0025]如图4所示,图1所示的胶囊内窥镜图像数据集构建方法100中的对精简图像集中的每个单幅图像标注130,包括对精简图像集中的每个精简单幅图像标注第一标识符(图框131),该第一标识符包含受检者病灶位置的信息;对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像数据集构建方法,其特征在于,所述方法包括:对原始图像进行预处理,以获得标准规格图像集;从所述标准规格图像集中去除冗余图像,以获得精简图像集;对所述精简图像集中的每个图像标注标识符;整合所述精简图像集中具有所述至少一个标识符的每幅图像。2.根据权利要求1所述的方法,其特征在于,所述从标准规格图像集中去除冗余图像包括:获得所述标准规格图像集中每个图像的哈希值;计算所述标准规格图像集中任意两幅图像的汉明距离;将所述任意两幅图像的汉明距离与预设阈值进行比对,如果汉明距离大于或等于阈值,则将该两幅图像均标注为保留图像;如果汉明距离小于阈值,则将该两幅图像中的一幅标注为冗余图像,将该两幅图像中的另一幅标注为保留图像;基于所述保留图像生成所述精简图像集。3.根据权利要求1所述的方法,其特征在于,所述对所述精简图像集中的每个图像标注标识符包括:对精简图像集中的每个精简单幅图像标注第一标识符;对精简图像集中的每个精简单幅图像标注第二标识符;对精简图像集中的每个精简单幅图像标注第三标识符;对精简图像集中的每个精简单幅图像标注第四标识符。4.根据权利要求3所述的方法,其特征在于,所述第一标识符包含受检者病灶位置的信息。5.根据权利要求3所述的方法,其特征在于,所述第二标识符包含受检者病灶类型的信息...

【专利技术属性】
技术研发人员:郭英凯郭永新胡珂立申崇江王伟王博
申请(专利权)人:苏州工业园区新国大研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1