当前位置: 首页 > 专利查询>云南大学专利>正文

一种数据高效的多尺度病理图像分类方法技术

技术编号:37677177 阅读:22 留言:0更新日期:2023-05-26 04:42
本发明专利技术公开了一种数据高效的多尺度病理图像分类方法。第一阶段对超大分辨率的病理图像多倍率拼接后进行组织区域提取、分块,并提取特征;先在低倍率下将整张幻灯片图像读入内存,将颜色空间从RGB转换到HSV;然后用中值模糊来平滑边缘,确定图像的二进制分割阈值,用额外的形态学闭合来填充小的间隙和孔洞;根据区域阈值过滤检测到的前景对象的近似轮廓,并存储用于下游处理。然后在特定放大倍率下从分割的前景轮廓中以滑动窗口的方式不重叠地裁剪出224

【技术实现步骤摘要】
一种数据高效的多尺度病理图像分类方法


[0001]本专利技术属于图像分类
,特别是涉及一种数据高效的多尺度病理图像分类的方法。

技术介绍

[0002]在临床医学中,病理检查被视为癌症诊断的金标准已有100多年的历史,不同放大倍率的病理图像中包含了各种详细的有助于病理学家作出判断的组织结构及细胞形状等信息。人工分析大量的医学图像是冗长和耗时的,容易引起人类的偏见和错误,迟来或不正确的诊断可能会对病人造成伤害。随着深度学习在医疗领域的成功应用,采用深度学习技术对病理图像进行分类已经成为一个重要的研究方向。
[0003]组织病理学图像的自动分析已从深度学习的不同角度(例如,监督、弱监督、无监督学习和迁移学习)、用于组织学的各种任务(例如,细胞或细胞核分割、组织分类、肿瘤检测、疾病预测和预后等),并已应用于多种癌症类型。用WSIs做分类预测,单张组织病理图像的大小在10亿像素级,所包含的描述性对象超过100万个,特征提取计算量极大,故直接输入神经网络处理的方法难以实现,直接对WSI进行下采样以适应神经网络会丢失大量重要的细节信息。
[0004]Lu M Y等(Nature biomedical engineering,2021,5(6))揭示了一种数据利用率高,可解释性强,领域适应性强的弱监督方法,只需要切片级标签,使用基于注意力的学习自动识别具有高诊断价值的子区域,以便对整个切片进行准确分类,同时还利用实例级聚类对识别出的代表区域进行约束和细化特征空间。CLAM在AB

MIL基于注意力的多实例分类上加入一个二分类聚类网络,来生成伪标签进行额外的监督信号,对于肿瘤亚型,可以加入领域知识,进行约束聚类。该方法将全部切片全部输入模型进行预测,特别是在一些阳性实例占比较小的组织病理学切片中,负实例比正实例多得多,模型在MIL条件下识别正实例具有很大的挑战性,加大了识别难度,且这些因素共同导致了严重地过拟合问题。同时,现有技术将全部切片全部输入模型进行预测,还存在数据冗余和数据利用率不高等问题,即计算量很大但分类性能提升较小。鉴于全切片图像的巨大尺寸,模型直接处理的单元是从全切片图像上裁剪的切块。用于全切片图像分类的多实例学习模型本质上旨在识别主要与幻灯片标签相对应的切块,而在全部切片输入模型的情况下,正负实例的比例严重失衡。

技术实现思路

[0005]为解决上述问题,本专利技术提供一种数据高效的多尺度病理图像分类方法。
[0006]本专利技术所采用的技术方案是,一种数据高效的多尺度病理图像分类方法,包括以下步骤:
[0007]S1、对图像进行分割与切块;
[0008]S2、将分割后的图像数据进行特征提取;
[0009]S3、基于随机部分切块弱监督分类的topk集成。
[0010]进一步的,S1的步骤具体如下:
[0011]先将整张幻灯片图像读入内存,将颜色空间从RGB转换到HSV;然后确定图像的二进制分割阈值;最后,根据区域阈值对检测到的前景对象的近似轮廓进行过滤,储存。
[0012]具体的,所述确定阈值的过程如下:
[0013]首先根据下式确定背景部分和前景部分的两类像素点各自占图像的比例ω0、ω1;
[0014][0015]再根据下式确定背景部分和前景部分两类像素点的灰度均值μ0、μ1;
[0016][0017]根据下式确定类间方差σ2,最后遍历图像灰度级0

255中的每一个灰度值T,找到使得类间方差最大的灰度值即为所求阈值L;
[0018]σ2=ω0(μ0‑
μ)2+ω1(μ1‑
μ)2[0019]其中,ω
i
为像素点占图像的比例,N
i
表示前景或背景像素点的数量,M
×
N为图像尺寸,μ
i
为像素点的灰度均值,Sum
i
表示前景或背景像素灰度值之和μ为图像总的平均灰度值,且有μ=ω0μ0+ω1μ1。
[0020]具体的,S1所述分块的步骤如下:
[0021]特定放大倍率下从分割的前景轮廓中以滑动窗口的方式不重叠地裁剪出小图块,只保留组织区域占比超过70%的部分,丢弃其余图块;使用HDF5分层数据格式存储图块及其坐标和WSI元数据,每张幻灯片对应一个HDF5文件。
[0022]具体的,所述特定放大倍率为20倍和5倍,20倍放大率下图块大小设置为256
×
256,5倍放大率下图块大小设置为64
×
64。
[0023]进一步的,S2特征提取步骤具体为使用在ImageNet上预训练的ResNet50模型将S1在两个倍率下得到的小切块转换为1024维的特征向量,将每张全切片图像对应的所有特征向量存储在一个HDF5文件中。
[0024]进一步的,S3基于随机部分切块弱监督分类的topk集成步骤具体如下:
[0025]将每次S2得到的特征集合中随机抽取1/k的特征,对抽取的所有特征按照图块的对应位置进行对齐拼接,输入ABMIL分类模型中,得到的logits在经过一层Softmax之后得到每个类别的预测概率,概率最高的类别即为模型预测的当前样本的所属类别;重复m次,得到m个不同的模型,即m个基学习器;其中m和k为超参数,m>k;
[0026]在验证集上验证m个模型的性能,按照错误率对模型进行排序;选出性能最好的k个基学习器;
[0027]对k个模型上的分类结果进行集成,并计算ROC曲线下方的面积AUC。
[0028]具体的,拼接过程中,对20倍放大倍率和5倍放大倍率下的抽取的所有特征按照图块的对应位置进行对齐拼接,拼接后的维度由Q
×
1024变为Q
×
2048,其中Q代表该全切片图像产生的图块数量。
[0029]具体的,所述AUC由下式获得:
[0030][0031][0032]其中,P
a
代表正样本的预测概率,P
b
代表负样本的预测概率,A为正样本数,B为负样本数,I(P
a
P
b
)表示正样本预测值大于负样本预测值的样本个数,当正负样本预测值刚好相等时,该样本记为0.5个。
[0033]本专利技术的有益效果是:
[0034]本专利技术使用随机采样的方式选取特征,每次将部分切块输入模型,使用随机采样的方式而不是一次性输入全部切块,有效地缓解了过拟合问题,不会导致数据冗余及数据使用率较低的问题,且选取了topk基学习器进行bagging集成,提升了算法的稳定性的同时也提高了分类性能。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据高效的多尺度病理图像分类方法,其特征在于,包括以下步骤,S1、对图像进行分割与切块;S2、将分割后的图像数据进行特征提取;S3、基于随机部分切块弱监督分类的topk集成。2.根据权利要求1所述的一种数据高效的多尺度病理图像分类方法,其特征在于,所述S1中分割的步骤具体如下:先将整张幻灯片图像读入内存,将颜色空间从RGB转换到HSV;然后确定图像的二进制分割阈值;最后,根据区域阈值对检测到的前景对象的近似轮廓进行过滤,储存。3.根据权利要求2所述的一种数据高效的多尺度病理图像分类方法,其特征在于,所述确定阈值的过程具体如下:首先根据下式确定背景部分和前景部分的两类像素点各自占图像的比例ω0、ω1;再根据下式确定背景部分和前景部分两类像素点的灰度均值μ0、μ1;根据下式确定类间方差σ2,最后遍历图像灰度级0

255中的每一个灰度值T,找到使得类间方差最大的灰度值即为所求阈值L;σ2=ω0(μ0‑
μ)2+ω1(μ1‑
μ)2其中,ω
i
为像素点占图像的比例,N
i
表示前景或背景像素点的数量,M
×
N为图像尺寸,μ
i
为像素点的灰度均值,Sum
i
表示前景或背景像素灰度值之和μ为图像总的平均灰度值,且有μ=ω0μ0+ω1μ1。4.根据权利要求1所述的一种数据高效的多尺度病理图像分类方法,其特征在于,所述S1中分块的步骤具体如下:在特定放大倍率下从分割的前景轮廓中以滑动窗口的方式不重叠地裁剪出小图块,只保留组织区域占比超过70%的部分,丢弃其余图块;使用HDF5分层数据格式存储图块及其坐标和WSI元数据,每张幻灯片对应一个HDF5文件。5.根据权利要求4所述的一种数据高效的多尺度病理图像分类方法,其特征在于,所述特定放大倍率为20倍和5倍,20倍放大率下图块大小设置为256
×
...

【专利技术属性】
技术研发人员:杨云李雪王耀威何臻力
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1