一种基于图片Bert的组织病理图片分类方法技术

技术编号:28873184 阅读:15 留言:0更新日期:2021-06-15 23:06
一种基于图片Bert的组织病理图片分类方法,本发明专利技术涉及组织病理检测中,对于正常与异常组织切片的分类问题。通过深度神经网络对于组织病理图片进行分类,可以有效地减少病理医生的工作量,提高诊断的准确性和效率。异常组织分类依赖于组织切片的局部和全局特征,传统的图片分类网络受模型大小和计算能力的限制,只能处理较小的图片,也难以结合全局特征进行分类。同时在对分类模型进行训练时,需要大量的标注数据,数据获取困难。针对以上问题,提出了一种基于图片Bert的组织病理学图片分类方法。试验结果表明,该方法能够有效地利用无标注信息进行训练,并结合全局特征对小图像进行编码,有效地提高了分类效果。该方法主要应用于组织病理图片分类。

【技术实现步骤摘要】
一种基于图片Bert的组织病理图片分类方法
本专利技术设计一种基于图片Bert的组织病理图片分类方法。
技术介绍
根据世界卫生组织(WHO)国际癌症研究机构(IARC)的最新报告,据估计,全球患癌症的人数正在快速增加,仅2018年一年,就有1810万新增患者,死亡人数达到960万。在本世纪末,癌症将是世界上的第一大“杀手”。而癌症在世界范围内发病率呈上升趋势,癌症的检测技术更加重要,只有早期发现、早期治疗,才能有效提高癌症的生存率。通过在可疑部位进行穿刺,获取活体组织进行检验,是癌症诊断的金标准,适合最后定诊。常规病理诊断全靠医生判断,工作量很大,同时由于医生的水平不同,容易造成误诊和漏诊。用计算机辅助医生进行病理诊断显得尤为重要,利用人工智能技术对癌症可能发生的部位进行筛选,由医生进行人工鉴别,可以有效地提高医生的工作效率,减少误、漏诊的发生。组织学影像分类的目的是筛选出异常的组织学影像。医师对组织病理学的判断大多是通过多张组织病理切片的全景扫描图片,结合图片的整体特征和组织的局部特征进行综合判断。由于受到硬件和训练数据的限制,深度学习常常无法处理全景扫描图片,只能先对图片进行裁剪,然后利用小图片进行训练和判断,这样就导致小图片丢失了大图片的整体特征。而且深度学习模型的训练需要大量的标注数据,数据的标注需要专业人员花费大量的时间,这使得深度学习模型由于缺乏训练数据而表现不佳。针对上述问题,提出了一种基于图片Bert的组织病理学图片分类方法。
技术实现思路
本专利技术的目的是为了解决少量标记数据下的组织病理分类问题,提出一种基于图片Bert的组织病理图片分类方法。上述专利技术目的主要是通过以下技术方案实现的:S1.准备图片Bert训练集数据,具体步骤如下:首先收集大量的组织病理全景图片,之后将全局图片按照一定顺序切割为等大小的图片,切割至大图边缘时,大小不足则使用白色区域将其填补为等大小图片。S2.构建图片Bert模型,具体步骤如下:图片Bert模型结构与Bert模型结构基本一致,但将网络的输入项、输出项设置为图片;将等大的小图片输入到图片Bert模型中,图片Bert模型会将输入图片x按规则切割为大小均等的补丁图片块xp,输入图片处理要求为补丁图片块的处理要求为其中,(H,W)代表输入图片的宽和长,C是代表当前图片的通道数目,(P,P)为补丁图片块的尺寸,N代表补丁图片块的数目;输入小图片需要进行编码,编码过程如公式1所示:其中,Z0表示小图片的编码,表示输入的补丁图片块,N代表补丁图片块的数目,Xcls表示小图片的可学习标记位,模型训练完成后,该位置输出为输入图片的图片特征编码,E表示对补丁图片块的线性变换操作,Epos表示补丁图片块位置信息,D表示图片Bert的编码长度;在图片Bert模型的训练过程中,一次性输入多张小图片,需要为每张输入图片添加标志位,用以区分不同小图片,输入值如公式2所示:其中,Y表示图片Bert模型的整体输入,Z0,Z1,…,Zm表示多张输入图片的编码,m表示输入图片的总张数,Eseg表示一组区分码,每一张输入图片对应其唯一的区分码。S3.训练图片Bert模型,具体步骤如下:为了实现小图片编码时携带组织病理全景扫描图的全局特征,同时获得小图片周围环境的信息,设计了两个预训练任务:训练任务一是预测遮蔽补丁任务;随机掩蔽隐藏一定比例的输入信息,通过模型输出预测掩蔽信息的方式,使每个掩蔽图片块在编码时都能与周围图片信息联系起来;训练任务二是预测两张小图片是否在原图中相邻;首先按一定顺序排列小图片位置,以达到以下排列效果:每一张小图片的邻域位置放置的其他小图片,p的概率为真实相邻小图片,(1-p)的概率是非相邻小图片;接着模型在训练时,引入相邻图片检测任务,即判断每张小图片邻域位置是否是其真实的相邻小图片,完成对不同邻域位置关系的学习;最后,通过对不同邻域位置关系的学习,从而使小图片特征能够包含具有全局特征的信息。S4.构建基于图片Bert的组织病理图片分类模型,训练得到最终分类模型,具体步骤如下:使用训练过的图片Bert来构建新的分类神经网络;在图片Bert的输出层之后,依次添加Bi-LSTM(Bi-directionalLongShort-TermMemory)模块、全连接模块;其中,Bi-LSTM对于图片输出做进一步特征提取,全连接网络用于对于类别进行预测;用未标注数据训练出的图片Bert具有丰富的组织病理知识,并具有很强的信息编码能力,对小图进行编码可以使其包含更多的先验知识,而用图片Bert构造的分类模型,可以利用少量的标记数据进行迁移学习,取得较好的分类效果。S5.利用基于图片Bert的组织病理图片分类模型确定组织病理图片类别,具体步骤如下:首先对组织病理图片进行处理,得到长宽分别为W和H的C通道图片;基于图片Bert的组织病理图片分类模型同时对多张组织病理图片进行分类,根据模型输入要求,选择m张图片输入模型;如果待分类的图片数目少于m个,则使用空白图片进行填充;最后便可以通过模型的全连接层输出得到m张图片的类别。专利技术效果提出一种基于图片Bert的组织病理图片分类方法。传统的图片分类深度模型的效果受标记数据质量和数量的影响较大,不能通过无标注数据来优化;本专利技术借助于大量未标注的组织病理图片训练图片Bert模型,可以获得较多的组织病理图片知识;基于训练完成的图片Bert模型建立的组织病理图片分类模型,包含了较多的先验知识,通过少量的分类标记数据进行迁移学习可以获得较好的分类效果,从而能够更有效地利用数据,达到更好的分类效果。与现有的人工判断相比,不但效率高,效果可靠,而且速度快,预测结果稳定。使用本专利技术可更好地辅助医师诊断,减轻医师的工作量。附图说明图1是算法总体算法的主要步骤图;图2是图片Bert的网络示意图;图3基于图片Bert的组织病理图片分类网络示意图。具体实施方法具体实施方式一:为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图一所示本文提供预训练模型的组织病理图片分类方法,包含预训练模型图片Bert训练和细胞分类任务迁移。所述模型训练步骤包含:S1.准备图片Bert训练集数据;S2.构建图片Bert模型;S3.训练图片Bert模型;S4.构建基于图片Bert的组织病理图片分类模型,训练得到最终分类模型;S5.利用基于图片Bert的组织病理图片分类模型确定组织病理图片类别。本专利技术实施例在图片Bert训练阶段使用大量的无标注数据进行训练,通过训练本文档来自技高网...

【技术保护点】
1.一种基于图片Bert的组织病理图片分类方法,其特征在于,包含如下步骤:/nS1.准备图片Bert训练集数据;/nS2.构建图片Bert模型;/nS3.训练图片Bert模型;/nS4.构建基于图片Bert的组织病理图片分类模型,训练得到最终分类模型;/nS5.利用基于图片Bert的组织病理图片分类模型确定组织病理图片类别。/n

【技术特征摘要】
1.一种基于图片Bert的组织病理图片分类方法,其特征在于,包含如下步骤:
S1.准备图片Bert训练集数据;
S2.构建图片Bert模型;
S3.训练图片Bert模型;
S4.构建基于图片Bert的组织病理图片分类模型,训练得到最终分类模型;
S5.利用基于图片Bert的组织病理图片分类模型确定组织病理图片类别。


2.如权利要求1所述一种基于图片Bert的组织病理图片分类方法,其特征在于,步骤S1中准备图片Bert训练集数据,具体为:
首先收集大量的组织病理全景图片,之后将全局图片按照一定顺序切割为等大小的图片,切割至大图边缘时,大小不足则使用白色区域将其填补为等大小图片。


3.如权利要求1所述的一种基于图片Bert的组织病理图片分类方法,其特征在于,步骤S2构建图片Bert模型具体步骤如下:
图片Bert模型结构与Bert模型结构基本一致,但网络的输入项、输出项均为图片;将等大的小图片输入到图片Bert模型中,图片Bert模型会将输入图片x按规则切割为大小均等的补丁图片块xp,输入图片处理要求为补丁图片块的处理要求为其中,(H,W)代表输入图片的宽和长,C是代表当前图片的通道数目,(P,P)为补丁图片块的尺寸,N代表补丁图片块的数目;输入小图片需要进行编码,编码过程如公式1所示:



其中,Z0表示小图片的编码,表示输入的补丁图片块,N代表补丁图片块的数目,Xcls表示小图片的可学习标记位,模型训练完成后,该位置输出为输入小图片的特征编码,E表示对补丁图片块的线性变换操作,Epos表示补丁图片块位置信息,D表示图片Bert的编码长度;
在图片Bert模型的训练过程中,一次性输入多张小图片,需要为每张输入图片添加标志位,用以区分不同小图片,输入值如公式2所示:



其中,Y表示图片Bert模型的整体输入,Z0,Z1,…,Zm表示多张输入图片的编码,m表示输入图片的总张数,Eseg表示一组区分码,每一张输入图片对应其唯一的区分码。


4.如权利要求1所述的一种基于图片Bert的组织病...

【专利技术属性】
技术研发人员:何勇军赵晶秦健
申请(专利权)人:黑龙江机智通智能科技有限公司
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1