一种手写文档文本的检测识别方法技术

技术编号：26599352 阅读：15 留言：0更新日期：2020-12-04 21:22

本发明专利技术特别涉及一种手写文档文本的检测识别方法。该手写文档文本的检测识别方法，包括文本行定位和文本行检测两部分；文本行定位网络使用变形的VGG‑11，对一张图片经过网络训练，从而在图片上找到文本行可能的开始位置；文本行检测网络增量地沿着文本行前向传播，得到的文本行开始位置和旋转角度，重新采样获得一个查看窗口，输入到CNN网络回归得到下一个位置的旋转角度，直到达到图片边缘，最终产生归一化的文本行图片，输入到文本行识别网络识别文本行图片并输出识别结果。该手写文档文本的检测识别方法，不仅能够克服自然场景下的干扰因素，准确的检测识别文本，还能够正确地沿着文本行的延展方向递归前进，最终检测出弯曲文本行。

全部详细技术资料下载

【技术实现步骤摘要】
一种手写文档文本的检测识别方法
本专利技术涉及深度学习
，特别涉及一种手写文档文本的检测识别方法。
技术介绍
二十世纪末，首次提出了自然场景中复杂彩色图像中文本块位置检测的问题。由于解决该问题具有很大的经济和文化效益，因此该问题很快成为计算机视觉和文档分析领域的热点。在上述问题提出后的几十年间，各种不同的文本检测识别方法被提出。对于文本检测而言，目前主要有如下几种方法：1、基于能力最小化方法，其大部分方法都是基于条件随机场和马尔可夫随机场的，把文本行的检测问题看作是能量最小化问题，以解决文本行之间的干扰；2、基于连通域的方法，其核心思想是找出小的部分组成大的部分，然后通过分类器去掉非文字部分，最终从图像中抽取文字并结合成文字区域，基于连通域的方法最具有代表性的是最大稳定极值区域(MSER)和笔划宽度转换(SWT)；3、基于深度学习的方法，利用卷积神经网络从图像中提取高维特征，实现文本检测识别。对于文本识别，目前主要有如下几种方法：1、基于字符的方法，该方法执行字符级的文本识别，成功识别字符可以使得自底向上的文本识别更容易实现；2、基于词组的方法，将文本识别视作单词识别；3、基于序列的方法，将文本识别问题转化成序列识别问题，文本通过字符序列表示，利用卷积循环神经网络处理任意长度序列。自然场景下手写文档中的文本检测识别与传统OCR识别不同。与OCR相比，自然场景下手写文档中的文本检测识别存在着非常多的挑战：其一是场景复杂性，噪音、变形、...

【技术保护点】
1.一种手写文档文本的检测识别方法，其特征在于：包括文本行定位和文本行检测两部分；/n文本行定位网络使用变形的VGG-11，对一张图片经过网络训练，回归得到(x

【技术特征摘要】
1.一种手写文档文本的检测识别方法，其特征在于：包括文本行定位和文本行检测两部分；
文本行定位网络使用变形的VGG-11，对一张图片经过网络训练，回归得到(x0，y0)坐标、尺度s0、旋转度θ0以及文本行出现的可能性p0，从而在图片上找到文本行可能的开始位置；
文本行检测网络增量地沿着文本行前向传播，通过文本行定位网络得到的文本行开始位置和旋转角度(xi，yi，θi)，重新采样获得一个查看窗口，输入到CNN网络回归得到下一个位置的(xi+1，yi+1，θi+1)，一直重复此过程直到达到图片边缘，最终产生归一化的文本行图片，输入到文本行识别网络，文本行识别网络识别文本行图片并输出识别结果。

2.根据权利要求1所述的手写文档文本的检测识别方法，其特征在于：输入到所述文本行定位网络前，先对数据集进行处理，输出所有的文本行图片，同时输出json标注信息，包括图像路径、每一行文本的区域坐标、每一行中每一个字所在区域的坐标以及每一行文本的文字内容。

3.根据权利要求1或2所述的手写文档文本的检测识别方法，其特征在于：所述文本行定位网络的处理方法，包括以下几个步骤：
S1.读取图像标签json文件，遍历json文件，剔除标注错误的部分；
S2.将输入图像resize到512像素宽，并且在整张图片上采样256*256个图像patch，允许每个patch使用该图像patch边缘的平均颜色填充扩展到图像外部；
S3.将每一个16*16的输入图像块输入到变形的VGG-11网络进行训练，经过网络训练回归得到(x0，y0)坐标、尺度s0、旋转度θ0以及文本行出现的可能性p0；
S4.经过训练后，使得p0＝1，(x0，y0)坐标、尺度s0和旋转度θ0等于0；
S5.使用文本行定位模块确定图片中文本行开始位置之后，文本行检测网络沿着文本行的路径增量逐步前进，确定出完成的文本行区域。

4.根据权利要求3所述的手写文档文本的检测识别方法，其特征在于：所述变形的VGG-11网络删除了经典的VGG-11网络中的全连接层以及最后一个池化层，其所有卷积层都是同样大小的卷积核，尺寸为3*3，步长stride为1，填充padding为1。

5.根据权利要求3或4所述的手写文档文本的检测识别方法，其特征在于：所述步骤S4中，训练过程使用针对多框目标检测问题提出的损失函数，在最大概率预测的文本行开始位置和目标位置之间对齐，其损失函数如下所示：

其中，tm是目标位置，pn是SOL出现的可能性，Xnm是N个预测位置和M个目标位置之间的一个双向对齐矩阵，α是衡量位置loss和置信度loss之间相对重要性的参数，默认取0.01，ln是对卷积神经网络的初始预测结果(xn，yn，sn，θn)的代数变...

【专利技术属性】
技术研发人员：崔炜炜，魏金雷，尹洪义，
申请(专利权)人：浪潮云信息技术股份公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人