一种识别作文稿纸的手写文本识别并复现文本结构的方法技术

技术编号:32831346 阅读:40 留言:0更新日期:2022-03-26 20:44
本发明专利技术公开了一种识别作文稿纸的手写文本识别并复现文本结构的方法,包括:使用拍摄设备拍取一页手写作文图片,初步进行调整;对图片进行特定预处理操作,将原始图片进行文本矫正,得到待识别的图片;将待识别的图片利用使用特定数据集进行训练的文字检测算法模型检测每一行的手写文本区域,同时获取每一个文本区域在图像中位置信息;对于检测到的每一行文本区域,使用特定数据集进行训练的文本识别算法模型快速识别出手写的文本内容;结合文本区域在图像中位置信息和文本内容信息进行分析,从而还原真实的作文文本内容和结构。利用该方法可以精确快速识别出待识别目标的真实文本内容,用于后续的NLP相关操作,从而对作文进行批改。进行批改。进行批改。

【技术实现步骤摘要】
一种识别作文稿纸的手写文本识别并复现文本结构的方法


[0001]本专利技术涉及文本识别
,尤其涉及一种识别作文稿纸的手写文本识别并复现文本结构的方法。

技术介绍

[0002]对于日益成熟的人工智能技术应用,目前,智能阅卷技术也发展越来越好,这也得益于手写字体识别领域发展以及识别能达到很高的精度。同时针对特殊的垂直领域的手写字体识别通用的OCR并不能满足要求,都需要对该垂直领域的数据进行一系列特殊的操作,从而达到真实内容数字化。
[0003]针对阅卷中重要的一部分:作文的文本识别,主要是对手写字体的识别,但同时中文作文通用的写作稿纸是带有格子信息的,英文作文的通用的写作稿纸是带有横线的,格子以及横线等干扰信息影响着文本识别的精度。目前大部分技术是对格子等干扰信息进行去除,即对原始图片进行特殊的预处理操作进行手写文本与干扰信息的分离,再进行文本的识别,此方法大大变慢了识别速度以及一定程度对文本位置特征进行了修改,不利于后续内容的复现。本领域的现有技术存在以下缺陷:
[0004](1)现有OCR识别技术主要针对打印文本的检测和识别,精度可以达到非常高,而对于手写文本的识别效果差强人意,而且手写的文本过于多样,传统OCR识别在该垂直领域效果较差,有效提高手写识别精度。
[0005](2)对预测图片需要进行过多的预处理操作,既需要去掉格子或横线来提高精度,能够大大降低识别速度。通过深度学习的泛化能力,即使针对基于格子、非贴合文本、横线等干扰项,进行文本识别
[0006](3)现有OCR服务调用接口都是对文本进行识别,偏向于通用识别,而对于手写作文识别领域的识别后的内容不做文本特征结构分析,识别出文本不能作为复现的真实内容和整体结构。

技术实现思路

[0007]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供一种识别作文稿纸的手写文本识别并复现文本结构的方法,该方法对移动设备拍摄的手写作文稿纸图片进行带格子和横线干扰信息的端到端文本识别,即不经过对原图片进行特征预处理而识别出文本,同时通过文本位置的特征信息进行文本分析归类,从而复现真实的作文内容。利用该方法可以精确快速识别出待识别目标的真实文本内容,用于后续的NLP相关操作,从而对作文进行批改。
[0008]为实现上述目的,本专利技术提供了一种识别作文稿纸的手写文本识别并复现文本结构的方法,包括以下步骤:
[0009]步骤1:使用拍摄设备拍取一页手写作文图片,初步进行调整;
[0010]步骤2:对图片进行特定预处理操作,将原始图片进行文本矫正,得到待识别的图
片;
[0011]步骤3:将待识别的图片利用使用特定数据集进行训练的文字检测算法模型检测每一行的手写文本区域,同时获取每一个文本区域在图像中位置信息;
[0012]步骤4:对于检测到的每一行文本区域,使用特定数据集进行训练的文本识别算法模型快速识别出手写的文本内容;
[0013]步骤5:结合步骤3与步骤4文本区域在图像中位置信息和文本内容信息进行分析,从而还原真实的作文文本内容和结构。
[0014]进一步的,所述步骤1拍摄的作文图片局限于中文的作文和英文的作文,作文的稿纸包括但不限于格子、横线、白纸的稿纸模板。
[0015]进一步的,所述步骤2对图片进行特定预处理操作,将原始图片进行文本矫正,具体为:
[0016]步骤2

1、对原始图片进行高斯滤波操作;
[0017]步骤2

2、对步骤2

1得到的图片进行灰度操作;
[0018]步骤2

3、对步骤2

2得到的图片进行Canny边缘检测,得到格子或横线以及手写文本的大致边缘轮廓;
[0019]步骤2

4、对步骤2

3的带的图片进行霍夫变换检测直线,即对每个边缘像素(x,y),根据公式:
[0020]ρ=x
0 cos(θ)+y0sin(θ)
[0021]获得对应的ρ值,得到每个边缘像素的曲线后,通过计算所在的平面中各交点所在的曲线数量来检测出直线,定义曲线数量阈值为d,即在某点相交的曲线数量大于该阈值,才认为该点在图像中对应一条直线,并记录该直线信息(θ,ρ),θ表示水平方向偏转角度,范围(0,180];
[0022]步骤2

5、计算每条直线的角度,在有格子的情况下,对于竖直的直线即大于45
°
或小于135
°
的直接去掉,同时对于相对多数量的直线进行加权平均,得到的角度即为需要调整的角度θ;
[0023]步骤2

6:对步骤2

5得到θ,当θ∈[0
°
,45
°
]时,图片顺时针旋转θ;当θ∈[135
°
,180
°
]时,图片逆时针旋转180
°‑
θ;最后,矫正得到的图片即为待识别的图片。
[0024]进一步的,所述步骤3的特定数据集由计算机生成,特定数据集的主要特征是以水平方向上的文本行作为标注特征。
[0025]进一步的,所述步骤3的文字检测算法模型包括但不限于DBNet、SAST、EAST、YOLOx网络模型,骨干网络使用ResNet50,训练方法在数据输入是对图片0.3概率进行数据增强,增强方法如下:
[0026]步骤3

1、设置有0.3的概率进行图片亮度调整:将RGB图片转换成HLS空间,随机改变L通道参数的值,即令L*random([0.8,1.2]);
[0027]步骤3

2、设置有0.3的概率进行图片模糊处理:对于每个像素点均值μ=0,高斯核大小(5,5)和高斯函数标准差σ=1.5;
[0028]步骤3

3、设置有0.3的概率进行图片添加噪点操作,随机生成每个位置数值在该范围[

10,10]的三维矩阵,并和图片矩阵进行相加操作。
[0029]进一步的,所述步骤3将待识别的图片经过文字检测算法模型后得到的结果为每
一文本行的矩形框在图像中像素位置信息,同时记录得到每一文本行区域位置信息组;所述矩形框在图像中像素位置信息的表现形式为像素坐标点的位置与原图片大小相结合,显示每一行的手写文本区域信息形式不限于使用以下表示方法:矩形框的四角坐标、左上角像素坐标加右下角像素坐标、左上角像素坐标加水平方向框的长度和垂直方向框的长度。
[0030]进一步的,所述步骤4检测到的每一行文本区域为步骤3文字检测算法模型得到的每一文本行区域位置信息组。
[0031]进一步的,所述步骤4使用的特定数据集进行训练的文本识别算法模型包括但不限于CRNN、STAR

Net、CharNet x网络模型,骨干网络使用ResNet32,训练时模型识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别作文稿纸的手写文本识别并复现文本结构的方法,其特征在于,包括以下步骤:步骤1:使用拍摄设备拍取一页手写作文图片,初步进行调整;步骤2:对图片进行特定预处理操作,将原始图片进行文本矫正,得到待识别的图片;步骤3:将待识别的图片利用使用特定数据集进行训练的文字检测算法模型检测每一行的手写文本区域,同时获取每一个文本区域在图像中位置信息;步骤4:对于检测到的每一行文本区域,使用特定数据集进行训练的文本识别算法模型快速识别出手写的文本内容;步骤5:结合步骤3与步骤4文本区域在图像中位置信息和文本内容信息进行分析,从而还原真实的作文文本内容和结构。2.如权利要求1所述的一种识别作文稿纸的手写文本识别并复现文本结构的方法,其特征在于:所述步骤1拍摄的作文图片局限于中文的作文和英文的作文,作文的稿纸包括但不限于格子、横线、白纸的稿纸模板。3.如权利要求1所述的一种识别作文稿纸的手写文本识别并复现文本结构的方法,其特征在于,所述步骤2对图片进行特定预处理操作,将原始图片进行文本矫正,具体为:步骤2

1、对原始图片进行高斯滤波操作;步骤2

2、对步骤2

1得到的图片进行灰度操作;步骤2

3、对步骤2

2得到的图片进行Canny边缘检测,得到格子或横线以及手写文本的大致边缘轮廓;步骤2

4、对步骤2

3的带的图片进行霍夫变换检测直线,即对每个边缘像素(x,y),根据公式:ρ=x0cos(θ)+y0sin(θ)获得对应的ρ值,得到每个边缘像素的曲线后,通过计算所在的平面中各交点所在的曲线数量来检测出直线,定义曲线数量阈值为α,即在某点相交的曲线数量大于该阈值,才认为该点在图像中对应一条直线,并记录该直线信息(θ,ρ),θ表示水平方向偏转角度,范围(0,180];步骤2

5、计算每条直线的角度,在有格子的情况下,对于竖直的直线即大于45
°
或小于135
°
的直接去掉,同时对于相对多数量的直线进行加权平均,得到的角度即为需要调整的角度θ;步骤2

6:对步骤2

5得到θ,当θ∈[0
°
,45
°
]时,图片顺时针旋转θ;当θ∈[135
°
,180
°
]时,图片逆时针旋转180
°‑
θ;最后,矫正得到的图片即为待识别的图片。4.如权利要求1所述的一种识别作文稿纸的手写文本识别并复现文本结构的方法,其特征在于:所述步骤3的特定数据集由计算机生成,特定数据集的主要特征是以水平方向上的文本行作为标注特征。5.如权利要求1所述的一种识别作文稿纸的手写文本识别并复现文本结构的方法,其特征在于:所述步骤3的文字检测算法模型包括但不限于DBNet、SAST、EAST、YOLOx网络模型,骨干网络使用ResNet50,训练方法在数据输入是对图片0.3概率进行数据增强,增强方法如下:步骤3

1、设置有0.3的概率进行图片亮度调整:将RGB图片转换成HLS空间,随机改变L
通道参数的值,即令L*random([0.8,1.2]);步骤3

2、设置有0.3的概率进行图片模糊处理:对于每个像素点均值μ=0,高斯核大小(5,5)和高斯函数标准差σ=1.5;步骤3

3、设置有0.3的概率进行图片添加噪点操作,随机生成每个位置数值在该范围[

10,10]的三维矩阵,并和图片矩阵进行相加操作。6.如权利要求1所述的一种识别作文稿纸的手写文本识别并复现文本结构的方法,其特征在于:所述步骤3将待识别的图片经过文字检测算法模型后得到的结果为每一文本行的矩形框在图像中像素位置信息,同时记录得到每一文本行区域位置信息组;所述矩形框在图像中像素位置信息的表现形式为像素坐标点的位置与原图片大小相结合,显示每一行的手写文本区域信息形式不限于使用以下表示方法:矩形框的四角坐标、左上角像素坐标加右下角像素坐标、左上角像素坐标加水平方向框的长度和垂直方向框的长度。7.如权利要求1所述的一种识别作文稿纸的手写文本识别并复现文本结构的方法,其特征在于:所述步骤4检测到的每一行文本区域为步骤3文字检测算法模型得到的每一文本行区域位置信息组。8....

【专利技术属性】
技术研发人员:黎旭民麦永钦林超纯张秀屏罗彦卓董祖兰陈栩杰蓝文辉张博
申请(专利权)人:黑盒科技广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1