一种病理切片标签识别方法技术

技术编号:25309744 阅读:24 留言:0更新日期:2020-08-18 22:28
本发明专利技术公开一种一种病理切片标签识别方法,采用深度学习方法对病理切片标签图像进行识别,所述深度学习采用的模型的基础网络为基于ResNet‑50的RetinaNet网络,以及用于帮助基础网络识别方向敏感的字符的模块,所述模块包括垂直自注意力机制分支、水平自注意力机制分支和中间分支,模块的融合方法为:O=C

【技术实现步骤摘要】
一种病理切片标签识别方法
本专利技术涉及医疗检测领域,尤其涉及一种病理切片标签识别方法。
技术介绍
目前病理切片标签识别的方法之一为光学字符识别(OCR)。主流的OCR算法都包含以下两步:1、检测场景中的文字;2、识别检测出来的文字。上述步骤中第一步的输出通常为一个词或一行文字的位置信息,目前使用的技术大多基于通用的目标检测算法;第二根据第一步的检测结果将相应的文字从图中裁剪出来并缩放为固定高度的图像后使用基于CTC或注意力机制的方法进行识别,并且它们在识别的时候通常都假定文字是满足正向并且是从左向右的。目前大多数的研究都关注于第一步,并且主要的关注点在于如何识别不规则的文字。主流的OCR算法直接应用于病理切片标签识别存在着以下问题:1、目前主流的OCR技术需要大量的训练数据,通常第一步需要10k~50k的标注数据,而第二步通常需要超过1000k的训练数据,要收集这个量级的病理切片数据几乎是不可能的,本专利所使用的标注数据不到2000个,远远小于主流OCR技术所使用的数据量;2、主流的OCR技术大多专注于如何检测不规则的文字,如图1所示,病理切片的标签是通过数字切片扫描仪扫描出来的,如图2所示,几乎不存在变形;3、病理切片的标签中的文字可以为任何方向(在同一个标签中可能同时存在不同的方向),主流的OCR技术对这方面关注较少,大多数OCR方法直接假定文字是向上,从左到右排列的;4、主流的OCR检测的多为自然语言,识别的目标为词,词与词之间存在语义相关性,而病理标签中的字符具有很大的随机性,字符与字符之间的相关性较小;5、部位可以直接处理任意方向字符的技术有使用场景限制,如字符是按规则生成在固定位置的、要求要辅助的定位符、使用固定的字体等。综上所述,由于目前主流的OCR技术与标签识别在数据量以及关注点方面存在巨大的差异,因此直接将OCR技术用在标签识别上并不能取得很好的效果。
技术实现思路
本专利技术旨在提供一种病理切片标签识别方法,可以正确的处理不同方向的字符。为达到上述目的,本专利技术是采用以下技术方案实现的:本专利技术公开一种病理切片标签识别方法,采用深度学习方法对病理切片标签图像进行识别,所述深度学习采用的模型的基础网络为基于ResNet-50的RetinaNet网络,以及用于帮助基础网络识别方向敏感的字符的模块,所述模块包括垂直自注意力机制分支、水平自注意力机制分支和中间分支,模块的融合方法为:O=Cvβ+Ch(1-β)(1)式(1)中:O表示输出,Cv表示垂直自注意力机制分支,Ch表示水平自注意力机制分支,β为中间分支的输出结果。优选的,所述基础网络的最顶层Anchorbox的比例为1:1,1:7,和7:1,中间层的Anchorbox比例为1:1,1:5和5:1;最底层的Anchorbox比例为1:1,1:2和2:1。优选的,所述模型的最顶层输出网络与中间层输出网络共享权重,最底层的网络使用单独的权重。优选的,训练网络的损失函数如下:L=Lcls(p,u)+λ[u≥1]Lloc(tu,v)+γLdre(p,w)(2)式(2)中:Lcls(p,u)=-logpu,u为输出结果中目标框的类型,其中背景的类别编号为0,Lloc为目标框的回归损失,Ldre(p,w)=-logpw,w为输出结果中目标框的方向,λ,γ为相应损失的权重。优选的,λ为10,γ为1。优选的,所述深度学习的训练阶段处理步骤如下:步骤1、对输入的图像进行预处理;步骤2、对预处理后的图像进行随机裁剪、左右翻转、上下翻转、任意角度旋转、颜色扰动、随机亮度变换以及加入随机噪声进行数据增强步骤3、将步骤2处理后的图像缩放为固定尺寸;步骤4、将若干张缩放后的图像组成一个batch;步骤5、使用模型进行向前传播;步骤6、使用损失函数计算损失并反向传播,更新训练参数;步骤7、迭代训练直至模型收敛。优选的,所述深度学习的预测阶段处理步骤如下:a、对输入的图像进行预处理;b、将预处理后的图像缩放为固定尺寸;c、使用模型进行向前传播;d、将步骤c输出的结果分为词和字符两组;e、根据词与字符是否有重叠将字符聚合为词;f、统计同一个词内各个字符的方向,并使用投票的方法确定当前词的方向;g、根据词的方向将词内的字符按顺序排列;h、根据词内各字符间的距离确定字符之间是否有空格,如果有则添加空格;i、输出结果。优选的,所述预处理的方法如下:式(3)中,μ为图像的均值,σ为图像的方差。优选的,所述固定尺寸为512*512,所述若干张为16张。本专利技术的有益效果如下:1、本专利技术仅需要极少量的训练样本。相较于经典的OCR,本专利技术的网络架构更易于训练,同时本专利技术使用了迁移训练以及增加模拟数据等训练方法使本专利技术的算法对样本的需要大大减小,目前所使用的训练样本不到仅有1400个远远小于经典OCR百万级别的样本需求。2、本专利技术可以正确的处理不同方向的字符。本专利技术的算法使用了自定义的LineAttention模块同时在输出时增加了方向预测,相较于主流的OCR算法(通常假定字符是向上并从左向右排列的),本专利技术可以正确的处理不同方向的字符。附图说明图1为具有不规则文字的图片示意图;图2为病理切片标签数据示例;图3本专利技术的模型构架图;图4为LineAttenation模块的示意图;图5人工合成数据样本示例图;图6为检测结果示例图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。本专利技术公开了一种用于病理切片标签字符识别(以下简称为标签识别)的算法。该算法基于RetinaNet,但RetinaNet是为通用目标检测设计的,不能正确的识别不同方向的文字,为了识别不同方向的文字本,专利技术在网络输出中新增了方向预测分支,同时为了正确的处理不同方向的“6”,“9”等与方向敏感的字符,设计了一种独特的线注意力模块用于有效的处理这类与方向敏感的字符;本专利技术对RetinaNet的另一个改进点在于特殊的Anchorbox参数设置,用于有效的处理文字检测中较大的宽高比的情况,在模型的基本架构方面本专利技术也进行了调整。在检测出单个的字符之后,使用相应的后处理算法将字符组合成行并进行输出。具体乳如下:模型架构模型的基本架构如图3所示,本专利技术使用了基于ResNet-50[3]的RetinaNet[2]作为本专利技术的基础网络架构。但RetinaNet是为通用目标检测设计的,直接用于标签字符识别并不能取得最优的效果。因此本专利技术对RetinaNet进行了以下改进:本专利技术设计了一种称为“LineAttenation”的模块(架构图中的橙色方框)本文档来自技高网
...

【技术保护点】
1.一种病理切片标签识别方法,其特征在于:采用深度学习方法对病理切片标签图像进行识别,所述深度学习采用的模型的基础网络为基于ResNet-50的RetinaNet网络,以及用于帮助基础网络识别方向敏感的字符的模块,所述模块包括垂直自注意力机制分支、水平自注意力机制分支和中间分支,模块的融合方法为:/nO=C

【技术特征摘要】
1.一种病理切片标签识别方法,其特征在于:采用深度学习方法对病理切片标签图像进行识别,所述深度学习采用的模型的基础网络为基于ResNet-50的RetinaNet网络,以及用于帮助基础网络识别方向敏感的字符的模块,所述模块包括垂直自注意力机制分支、水平自注意力机制分支和中间分支,模块的融合方法为:
O=Cvβ+Ch(1-β)(1)
式(1)中:O表示输出,Cv表示垂直自注意力机制分支,Ch表示水平自注意力机制分支,β为中间分支的输出结果。


2.根据权利要求1所述的病理切片标签识别方法,其特征在于:所述模型的最顶层Anchorbox的比例为1:1,1:7,和7:1,中间层的Anchorbox比例为1:1,1:5和5:1;最底层的Anchorbox比例为1:1,1:2和2:1。


3.根据权利要求1所述的病理切片标签识别方法,其特征在于:所述基础网络的最顶层输出网络与中间层输出网络共享权重,最底层的网络使用单独的权重。


4.根据权利要求1-3任一项所述的病理切片标签识别方法,其特征在于:训练网络的损失函数如下:
L=Lcls(p,u)+λ[u≥1]Lloc(tu,v)+γLdre(p,w)(2)
式(2)中:Lcls(p,u)=-logpu,u为输出结果中目标框的类型,其中背景的类别编号为0,Lloc为目标框的回归损失,Ldre(p,w)=-logpw,w为输出结果中目标框的方向,λ,γ为相应损失的权重。


5.根据权利要求4所述的病理切片标签识别方法,其特征在于:λ为10,γ为1。...

【专利技术属性】
技术研发人员:王杰郑众喜向旭辉陈杰
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1