当前位置: 首页 > 专利查询>南京大学专利>正文

一种适用于自然场景下的中文文字识别方法技术

技术编号:13832018 阅读:52 留言:0更新日期:2016-10-14 11:17
本发明专利技术公开了一种应用于自然场景下的中文文字识别的方法,通过建模训练阶段和文字识别阶段两个阶段进行文字识别。建模训练阶段依次先建立模板文字的树状结构表示,然后合成训练集,再训练卷积神经网络,之后提取节点的深度模板特征,最后建立并训练马尔科夫随机场;文字识别阶段则先对待识别图片进行图片预处理,然后提取输入图片的深度特征,随后最小化马尔科夫随机场能量函数,最后识别文字。本方法在进行文字识别时,同时考虑了文字的局部特征和全局结构,通过将马尔科夫随机场技术与树状结构中节点的深度特征相结合,克服了自然场景下由于文字模糊、形变大对识别效果的影响,提高了识别的效率。

【技术实现步骤摘要】

本专利技术涉及中文文字的识别方法,尤其涉及一种适用于自然场景下的中文文字的识别方法。
技术介绍
文字识别在输入法、车牌识别、税票识别和书籍内容识别等领域有着极高的应用需求。有不少相关的技术已经投入了商业使用,并且取得了较好的效果。但大部分技术都仅限于特定的使用场景,现有技术在自然场景下的文字识别效果并不令人满意。根据应用场景不同,常见的中文文字识别算法主要分为两类:基于笔画跟踪的方法和基于图片的方法。其中基于笔画跟踪的方法通常用在手机等的中文输入法上。由于自然场景中的文字难以确定笔画位置和笔画顺序,所以这种方法并不适用于自然场景下的文字识别。基于图片的中文文字识别算法主要有二次判别函数分类法、最近邻分类法和卷积神经网络法。二次判别函数分类法和最近邻分类法对图片文字的判别性特征要求较高,而自然场景下的文字常常受到复杂背景、光照和形状扭曲等影响,因此在自然场景下提取的文字特征往往包含很大噪声,所以这两种方法的使用效果并不理想。卷积神经网络法对训练数据的要求较高,如果训练数据的分布不太广泛,它的泛化能力就受到限制,以至于不能识别字形变化较大的文字。
技术实现思路
为了解决现有中文文字识别方法中存在的不适用于自然场景下的文字识别、识别率低的问题。本专利技术提出一种可以在自然场景下高效的进行中文文字识别方法。本方法同时利用文字的局部特征和全局结构来识别中文文字,通过将马尔科夫随机场技术与树状结构中节点的深度特征相结合,克服了自然场景下由于文字模糊、形变大对识别效果的影响。具体识别方法如下。一种适用于自然场景下的中文文字识别方法,其特征在于:通过建模训练阶段和文字识别阶段两个阶段进行文字识别,具体识别步骤如下:建模训练阶段:步骤1-1,建立模板文字的树状结构表示;首先,提取模板文字的骨架,找到骨架上所有的端点、交点和转折点,设为节点;两两连接所有节点,以两节点之间的欧氏距离作为连接这两个节点的边所对应的权重,建立带权重的完全无向图;计算该完全无向图的最小生成树{G|(V,S)本文档来自技高网...

【技术保护点】
一种适用于自然场景下的中文文字识别方法,其特征在于:通过建模训练阶段和文字识别阶段两个阶段进行文字识别,具体识别步骤如下:建模训练阶段:步骤1‑1,建立模板文字的树状结构表示;首先,提取模板文字的骨架,找到骨架上所有的端点、交点和转折点,设为节点;两两连接所有节点,以两节点之间的欧氏距离作为连接这两个节点的边所对应的权重,建立带权重的完全无向图;计算该完全无向图的最小生成树{G|(V,S)},最小生成树{G|(V,S)}即模板文字的树状结构;其中G表示最小生成树,V表示节点集合{Vi|i=1,2,...,v},v为节点数量,Vi表示第i个节点,S表示边集合{Sj|j=1,2,...,s},s为边的数量,Sj表示第j条边,i和j均为整数;步骤1‑2,合成训练集;先将模板文字进行旋转、仿射、腐蚀、膨胀变换,得到变形文字;然后将变形文字与不同背景图片融合,每个融合后的变形文字生成一张40×40的灰度图,将该模板文字生成的所有灰度图合成为一个训练集;在合成训练集的同时,跟踪树状结构中的每一个节点在灰度图中位置的变换,记录每个节点在训练集中对应的位置;步骤1‑3,训练卷积神经网络;将训练集中的灰度图打包,然后输入卷积神经网络,卷积神经网络先进行第一层卷积,然后进行最大池化层处理,最大池化层处理后再依次进行第二层卷积和第二层最大池化处理,第二层最大池化处理后输出特征图,接着用两个全连接层对特征图进行处理,最后向后传播梯度以更新卷积神经网络的各层参数;在上述过程进行多次迭代后,卷积神经网络训练完毕;将第二个最大池化层输出的特征图中的像素按从上到下从左到右的顺序编号,节点Vi所对应的像素用编号表示;步骤1‑4,提取节点的深度模板特征;第1‑401步,提取节点Vi在灰度图上的位置坐标(x,y),找出该节点Vi在特征图上对应的位置(7x/40,7y/40),读取节点Vi在特征图上对应位置(7x/40,7y/40)的值,即得到节点Vi的特征向量;第1‑402步,按照上述步骤读取节点Vi在每一张灰度图中的位置坐标,通过位置坐标找到该节点所有的特征向量,节点Vi的深度模板特征fi即该节点所有的特征向量的平均向量;第1‑403步,依次按照上述第401至402步得到该模板文字中所有节点的深度模板特征fi;步骤1‑5,建立并训练马尔科夫随机场;建立马尔科夫随机场的能量函数E,能量函数E=Eu+Ep,其中Eu为能量函数的一元项,Ep为能量函数的二元项,其中,fi为节点Vi的深度模板特征,表示节点Vi在特征图中对应的像素编号,表示在特征图中对应的特征向量,αi为权重系数;其中lj是树状结构中边Sj的长度,θj表示树状结构中边Sj与水平方向的夹角,σ(j)是边Sj在特征图中对应的标号,lσ(j)表示边Sj在特征图中对应的边的长度,θσ(j)表示边Sj在特征图中对应的边与水平方向的夹角,βj和γj为权重系数;然后训练马尔科夫随机场的能量函数,得到三个权重系数αi、βj和γj的取值,即完成对这一模板文字的马尔科夫随机场的训练;步骤1‑6,依次按照步骤1‑1至步骤1‑5的顺序,完成全部模板文字的建模训练;文字识别阶段:步骤2‑1,图片预处理;将输入的图片转化为待识别灰度图,并把待识别灰度图的尺寸调整为40×40;步骤2‑2,提取输入图片的深度特征;第2‑201步,用建模训练阶段步骤1‑3所述的卷积神经网络处理上一步得到的待识别灰度图,保留第二层最大池化处理后的输出,得到待识别灰度图的特征图;第2‑202步,按照建模训练阶段得到的每一类模板文字的能量函数,计算树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值;步骤2‑3,最小化马尔科夫随机场能量函数;根据上一步中树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值,寻找每一类模板文字的能量函数的最小值;步骤2‑4,匹配文字;比较上一步中各类模板文字的能量函数的最小值,将其中最小的值所对应的模板文字作为识别结果,输出。...

【技术特征摘要】
1.一种适用于自然场景下的中文文字识别方法,其特征在于:通过建模训练阶段和文字识别阶段两个阶段进行文字识别,具体识别步骤如下:建模训练阶段:步骤1-1,建立模板文字的树状结构表示;首先,提取模板文字...

【专利技术属性】
技术研发人员:路通刘小龙
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1