一种基于分割和形变LSTM的手写体蒙古文检测和识别方法技术

技术编号:30139688 阅读:41 留言:0更新日期:2021-09-23 14:59
一种基于分割和形变LSTM的手写体蒙古文检测和识别方法,利用基于分割的任意形状文本检测器SAST实现对复杂环境中手写体蒙古文的检测;用RoI Rotate模块将文本的检测和识别功能结合;将提取得到的文本候选框作为输入图像,使用形变LSTM结合CTC模块实现对输入图像的文本识别。本发明专利技术利用SAST以更有效地提取任意形状文本的多边形表示,同时可以捕捉像素的长范围相关性,一次获得更加可靠的分割结果,通过RoI Rotate模块的应用将手写体蒙古文的检测和识别两个阶段的内容进行连接,有助于进一步提高训练效率。将循环神经网络与形变LSTM进行结合,在实现手写体蒙古文识别中有助于进一步提高识别准确率。一步提高识别准确率。一步提高识别准确率。

【技术实现步骤摘要】
一种基于分割和形变LSTM的手写体蒙古文检测和识别方法


[0001]本专利技术属于人工智能
,涉及文字检测与识别,特别涉及一种基于分割和形变LSTM的手写体蒙古文检测和识别方法。

技术介绍

[0002]随着互联网与人工智能的快速发展,教育信息化已经开始影响并改变传统教育方式,在线解答等人机交互的场景越来越普遍,手写检测与识别问题成为了计算机视觉领域的一个研究方向。对于人类来说辨别并且识别手写文字是一件很简单的事,但这对于计算机而言非常复杂。近年来,深度卷积神经网络的发展给计算机视觉领域带来了革命性的变化,卷积神经网络和循环神经网络的结合在基于图像分割以及序列识别问题中取得了巨大的成功,推动了手写检测与识别领域的进展。作为模式识别的一个重要研究领域,手写检测和识别得到了学术界的广泛研究和关注。热门语言(如汉文、英文、日文)的手写检测和识别研究已经从简单的孤立词识别发展到文本行识别、无约束手写识别、文档识别和场景文字检测和识别等领域。
[0003]而蒙古文等小众语言的手写检测和识别起步较晚、相关研究较少,且蒙古文具有词汇量巨大、书写自本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,包括如下步骤:第一步:获取手写体蒙古文图像作为输入图像,手写体蒙古文检测模型为基于分割的任意形状文本检测器SAST,检测复杂环境中手写体蒙古文,得到划分文本候选框的图像;第二步:将进行过文本检测的手写体蒙古文图像,即划分文本候选框的图像作为RoI Rotate模块的输入图像,对定向的特征区域进行变换以获得轴对齐的特征图;第三步:获取独立的特征图作为输入图像,使用形变LSTM结合CTC模块构成手写体蒙古文识别模型,实现文字识别。2.根据权利要求1所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述任意形状文本检测器SAST利用基于全卷积网络的上下文多任务学习框架来学习文本区域的各种几何特征,从而构造文本区域的多边形表示,所述基于分割的任意形状文本检测器SAST将高层次的目标知识和低层次的像素信息融合在一个镜头中,从而以高精度和高效的方式检测任意形状的场景文本。3.根据权利要求1所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述第一步具体步骤如下:步骤1:从输入图像中提取特征使用RESNET

50作为SAST的主干网络,并通过全连接网络将文本区域的多种属性在一个多任务学习中同时提取出来,属性包括:文本中心线TCL、文本边界偏移TBO、文本中心偏移TCO和文本顶点偏移TVO;即,将包含TCL、TBO、TCO、TVO映射信息的特征图作为一个多任务问题进行学习,并将所得特征图依次命名为TCL特征图、TBO特征图、TCO特征图和TVO特征图,卷积网络输出通道分别设置为{1,2,8,4},用于预测和提取TCL特征图、TBO特征图、TCO特征图和TVO特征图;同时,引入上下文注意力模块(Content

Attention

Block,CAB)以聚合上下文信息从而实现特征增强;其中,所述TCL特征图作为区分文本/非文本的单通道分割特征图,描述输入图像某像素点属于文本中心线像素点的概率;TCO特征图描述文本中心点偏置,即输入图像某像素点距其所属的文本实例矩形框中心的水平和垂直方向距离;TVO特征图描述文本四顶点偏置,即输入图像中某像素点距其所属的文本实例矩形框四顶点水平及垂直方向的距离;TBO特征图描述文本边界偏置,即对输入图像中,某像素点距其所属的文本实例上下边界框的水平及垂直方向距离进行描述;步骤2:输入图像文本实例分割使用四点赋值机制,利用具有高级对象信息的TCL、TCO和TVO映射生成文本实例分割:首先,基于生成的TCL特征图和TVO特征图检测候选文本四边形,形成的候选文本四边形将用于组合形成文本检测框;步骤为:将获取的TCL进行阈值过滤,将置信率低于阈值的像素点剔除,根据TVO特征图,使处理过的TCL特征图的每个像素点得到对应的文本矩形框四顶点坐标,并进行非最大值抑制NMS,得到所需的文本实例矩形框及其中心点,作为高层级目标知识;然后,根据TCO特征图,计算TCL中属于文本的像素点所属文本实例的几何中心点,该中心点将作为低层级像素信息;当计算所得的几何中心点与之前所得矩形框中心点重合或相近时,该像素点将被归类给之前所得矩形框对应的文本实例,同时,所有高于阈值的像素点划分为不同的文本实例;
步骤3:生成文本候选框,实现反向传播经过步骤2,得到被TVO、TCO修正后的、准确的TCL文本中心线,对文本中心线进行自适应采样,即采样点的间距相同,到的采样点数目与文本线的长度有关,根据文本边界偏置图TBO所提供的信息,计算文本中心线的采样点上的上下边界定位点,将所有的边界定位点按照从左上角开始的顺时针方向依次进行连接,得到最终的文本边界框,其中,多于四个顶点的多边形由多个连接的四边形候选框划定,对于非TCL特征图像素,将其对应的几何属性设置为0。4.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,在手写体蒙古文检测模型训练过程中,模型的损失函数L
total
表达为:L
total
=λ1L
tcl
+λ2L
tco
+λ3L
tvo
+λ4L
tbo
其中L
tcl
,L
tco
,L
tvo
,L
tbo
表示TCL、TCO、TVO、TBO映射的损失值,λ1,λ2,λ3,λ4分别表示L
tcl
,L
tco
,L
tvo
,L
tbo
的权重,在反向传播中,确定了一组权重{1.0,0.5,0.5,1.0},从而降低四个损失梯度范数在反向传播中的差异性。5.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述上下文注意模块利用自我注意力机制来抓取上下文信息以增强特征表示,其只考虑特征图中每个位置与同一水平或垂直列中其他位置的相似性,以减轻直接使用自我注意所带来的巨大计算开销;所述RESNET

50输出的特征图包含输入图像特征的图像,其尺寸是N*H*W*C,N代表张数,H代表输入图像高度,W代表输入图像宽度,C代表输出维数;并行设置3个卷积层收集水平上下文信息,将获取得到的上下文特征信息保存为{f
θ
,f
φ
,f
g
},将输入图像尺寸重置成为{N*H}*W*C的形状,通过f
φ
与f
θ

【专利技术属性】
技术研发人员:萨和雅麻泽蕊仁庆道尔吉代钦
申请(专利权)人:内蒙古师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1