一种基于病理图像特征检测肿瘤蛋白标记物表达水平算法制造技术

技术编号:37607036 阅读:23 留言:0更新日期:2023-05-18 11:59
一种基于病理图像特征检测肿瘤蛋白标记物的算法,包括步骤:1)病理图像的分割与过滤:选用癌症和肿瘤基因组图谱TCGA数据库中的数字病理切片;使用大津阈值法(Ostu)来识别病理组织区域与背景区域;随后把病理切片(slide)分割成能够被模型计算的若干图块(patch);2)基于对比学习的预训练与微调:使用ResNet50模型作为编码器,利用对比学习的方式对编码器进行预训练,而后根据RPPA数据对模型微调,最终使用注意力池化对patch

【技术实现步骤摘要】
一种基于病理图像特征检测肿瘤蛋白标记物表达水平算法


[0001]本专利技术涉及深度学习
,是一种深度技术在病理学的诊断中的应用,尤其涉及一种基于对比学习的病理图像特征检测肿瘤蛋白标记物表达水平算法。

技术介绍

[0002]近年来,数字病理学获得快速发展,促进了计算机对肿瘤的自动诊断,减轻了病理学家的劳动强度,降低了观察者的主观偏差。目前已有不少的研究关注于使用深度学习模型提取病理图像特征,用于基因突变预测、细胞核分类及分割,但鲜有研究着眼于肿瘤蛋白标记物的表达。RPPA是一种高通量、高灵敏的功能性蛋白组学技术,通过RPPA技术可以快速和准确的对肿瘤的发生和发展机制进行深入研究。然而RPPA技术依赖于专业的平台,通过RPPA技术检测蛋白质分子谱要求的肿瘤样本较多,同时也受到检测手段与成本的限制,且忽视了肿瘤的形态学特征。基于深度学习的计算机视觉技术已取得了巨大进步,目前深度学习已广泛应用于数字病理切片图像的分析。
[0003]现有技术中,深度学习模型在解决相应问题上已经有了不错的表现,但是尚无相关技术完善应用在肿瘤蛋白标记物表达中。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中存在的缺点,减少实验验证的成本,本专利技术提出一种基于病理图像特征检测肿瘤蛋白标记物表达水平算法,该算法为病理图像相关研究提供了肿瘤蛋白标记物预测的一种新思路。
[0005]本专利技术的思路是1)对TCGA数据库中数字病理组织切片数据(乳腺癌组织切片数据)使用Ostu算法识别病理组织区域与背景区域,而后将病理组织区域切割成可以被模型计算的若干patch,用作模型的输入。2)使用ResNet50作为编码器,使用对比学习框架进行预训练,并在计算后对patch

level特征采用注意力池化方式进行聚合,以获得slide

level的特征。3)预测任务使用线性层进行预测,通过修改不同的损失函数可以实现肿瘤诊断、肿瘤蛋白标记物表达水平预测以及患者预后预测。通过实验验证,本方法提出的模型在肿瘤诊断任务中的ACC指标达到了0.99,AUC达到了0.99,高于其他方法;在预测蛋白质表达水平任务中,平均相关系数达到了0.287。证明了本方法能更好的提取图块级(patch

level)特征。
[0006]本专利技术的具体技术方案为:一种基于对比学习的病理图像特征检测肿瘤蛋白标记物表达水平算法,包括以下步骤:
[0007]操作者使用TCGA数据库中乳腺癌组织切片数据slide(病理组织切片图像)作为训练集放入自监督模型中,从原始序列中将第i个slide使用openslide读取并切割成z
i
个图块patch;
[0008]本方法使用ResNet50网络模型作为训练的基模型(backbone),基模型θ将一张slide的所有patch转化为一个h维向量H;向量H再经映射层投影到一个k维向量K;每张
slide得到大小为z
i
×
k的一个矩阵;
[0009]之后整个Memory Bank作为对比学习的负样本。训练过程中不断地随机从Memory Bank中提取1个batch的数据作为负样本,通过最大化图块与正样本的相似度,最小化与负样本的相似度来进行对比训练。训练过程中Encoder中的参数θ
q
沿梯度下降的方向立即更新,而Momentum Encoder中的参数θ
k
如公式2所示方式缓慢更新,这使得负样本也能密切跟踪网络的变化。
[0010]使用注意力机制池化对patch

level的特征进行聚合,来获得slide

level的特征,通过一个神经网络确定权重,权值和是1。将一个slide中所有的patch特征输入注意力池化层,计算出每一个patch的注意力权重,通过加权平均计算得到该slide的slide

level的特征;
[0011]在下游任务中,操作者在得到切片级slide

level特征向量Sz之后,就可以进行相应的下游任务。对于肿瘤组织诊断任务,使用有2048个输入纬度和2个输出纬度的线性层和一个softmax层,最后输出的是输入slide为正常组织和肿瘤组织的概率;对于蛋白标记物预测,使用有2048个输入纬度和223个输出纬度的线性层;
[0012]模型网络中,数据处理模块包括背景分割模块和slide切割模块。训练模块包括对比学习预训练模块和微调模块。预测模块包括特征整合和深度学习网络预测模块。
[0013]本专利技术具有以下有益效果:
[0014]1、该基于对比学习的病理图像特征检测肿瘤蛋白标记物表达水平算法,将千兆像素图像的分割若干较小的图块,解决了内存不足造成GPU计算困难难以训练的问题,从而使得使用对比学习模型对肿瘤组织的分类任务进行训练成为可能。同时在人工标注数据集上进行测试,证明了其准确性。
[0015]2、该基于对比学习的病理图像特征检测肿瘤蛋白标记物表达水平算法,在多个数据集上,预测slide是否为肿瘤组织具有极高的准确性,可以用于相关的肿瘤诊断任务中,为实验人员提供一定的参考,用于节省人力物力,减少实验成本。
附图说明
[0016]图1为本专利技术所述数据处理模块和训练模块步骤示意图;
[0017]图2为本专利技术在肿瘤诊断任务中的预测结果;
[0018]图3为本专利技术在肿瘤蛋白标记任务中的预测结果。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0020]参照图1,一种基于对比学习的病理图像特征检测肿瘤蛋白标记物表达算法,包括以下步骤:
[0021]S1:操作者使用TCGA数据库中的乳腺癌组织切片数据来进行模型的输入(slide),用来测试模型的诊断能力;
[0022]S2:操作者使用TCPA数据库中的RPPA数据,下载乳腺癌相关数据。
[0023]S3:WSI(Whole Slide Image)数据集存在单张图像占用内存较大的问题,因此需
首先在slide

level下对WSI进行切割,得到有病理组织的前景区域,这个过程使用python库openslide读取wsi数据,Ostu算法识别病理组织区域与背景区域,用以剔除背景区域。
[0024]其次,将分割得到的病理组织区域切分,得到128
×
128μm(256
×
256pixels)的正方形小块。因为全部wsi数据集切分出来的patch数据占用了大量的硬盘空间,因此使用hdf5格式文件保存slide所对应的patch的坐标;
[0025]S4:将深度残差网络模型ResNet50作为编码器,采用动量式对比学习的思本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的病理图像特征检测肿瘤蛋白标记物表达水平的算法,其特征在于:包括步骤:1)数据分割:选用癌症和肿瘤基因组图谱TCGA数据库中的数字病理切片;使用Ostu算法识别病理组织区域与背景区域;剔除背景区域后把病理组织区域切割成若干图块patch,作为模型的输入;2)基于对比学习的预训练:使用深度残差网络ResNet50作为图块编码器,使用对比学习框架对编码器进行预训练后对其继续微调,并在计算后对patch

level特征进行聚合,以获得slide

level的特征;正样本采用随机图像增强的方式生成,负样本从预先生成的Memory Bank中提取;3)预测:预测任务使用线性层进行预测,使用均方误差损失函数训练模型来实现肿瘤蛋白标记物表达预测;所述步骤1)中,使用癌症蛋白质组图谱TCPA数据库中的RPPA数据,下载与TCGA中数字病理切片相匹配的RPPA数据,作为样本回归标签;在切片级(slide

level)下对数字病理切片(WSI)进行切割,得到有病理组织的前景区域:使用Python库openslide读取WSI数据,使用Ostu算法识别病理组织区域与背景区域,以剔除背景区域;将病理组织区域切分,得到若干足够小的正方形小块(patch);所述步骤2)中,设步骤1)中的第i张slide有z
i
个patch;编码器f(θ)将一张slide的所有patch转化为一个h维向量H,该H向量又经映射层投影到一个k维向量K;经计算得到每张slide得到大小为z
i
×
k的矩阵;对比学习的正样本采用随机图像增强的方式生成;负样本从预先生成的负样本队列Memory Bank中提取。训练过程中同时以公式(2)更新基模型f(θ);梯度更新过程中,基模型θ沿梯度下...

【专利技术属性】
技术研发人员:刘辉解晓东
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1