面向考试领域的手写中文行识别方法及系统技术方案

技术编号:37398628 阅读:10 留言:0更新日期:2023-04-30 09:27
本发明专利技术涉及图像处理技术领域,公开了面向考试领域的手写中文行识别方法及系统;方法包括:获取待识别的单行手写中文图像;将待识别的单行手写中文图像,输入到训练后的第一手写中文行识别模型中,输出手写中文行识别结果;模型用于对待识别的单行手写中文图像进行特征提取得到特征图;对特征图进行像素提取得到特征图上包含文本信息的区域特征;对特征图上包含文本信息的区域特征进行压缩处理得到序列化向量;对序列化向量进行上下文信息提取得到上下文信息;对上下文信息进行分类得到概率分布矩阵;对概率分布矩阵进行解码处理得到最终的识别结果。本发明专利技术能够对多行文本行组成的段落图像进行识别,提高了识别的速度。提高了识别的速度。提高了识别的速度。

【技术实现步骤摘要】
面向考试领域的手写中文行识别方法及系统


[0001]本专利技术涉及图像处理
,特别是涉及面向考试领域的手写中文行识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]文本识别是机器学习和计算机视觉领域的一个热门方向。在教育考试领域,非选择题类题目仍然主要以手写文字的方式作答。在试卷评分的过程中,目前仍然处于评卷教师从考生答题卡的扫描图像中辨认考试书写内容进而给出分数的现状中。对此,将大量的图像数据转写为文本化数据是十分必要的。这样的策略既能对试卷进行智能评分,提高评卷质量和效率;又能基于大数据分析的角度,从多个维度分析考试试题质量、考察考生答题结果,并将其反馈给考试管理和命题机构,对改进学生学习方法、提高教师教学质量和命题水平提供辅助方案。
[0004]文本识别方法可以按照是否对字符分割分为两类:一类是基于分割的方法,即将文本行图像中每个字符的位置进行定位,进而将文本行以字符为单位进行分割,然后对分割出的单个字符使用字符分类器进行识别,最终将单个字符的识别结果整合为文本行的识别结果。这种方法存在两个明显的局限性:一是文本行的识别结果依赖于对字符进行定位的准确性;二是该方法将文本行中的字符视为单独的个体,无法对文本行本身含有的上下文信息进行利用。另一类是基于无分割的方法,也被称为序列到序列(Sequenceto Sequence)的方法,即将文本行图像视为一个序列,方法的输出是字符序列,模型旨在学习文本图像到输出序列的一种映射关系,通过特征隐式对齐来避免对字符的分割操作。隐式特征对齐效果通常在模型的解码器部分实现,根据解码器的实现方式,可以将无分割方法分为两类:一类是基于CTC(ConnectionistTemporal Classification,连接时序分类)的方法,即根据每个时间步的概率分布,组合为一个二维概率分布矩阵,通过动态规划寻找最大概率的预测路径;另一类是基于Attention的方法,在解码时利用注意力机制使模型关注与当前时间步相关的部分,来实现特征对齐。
[0005]目前科研领域对文本识别方法的研究主要针对于自然场景下的英文文本识别,面向真实场景下试卷数据的中文文本行识别与目前科研研究方向有较大差别。具体来说,目前考试领域的中文文本行识别面临以下几个问题:不同于英文的少量字母,中文有超过3000个常用字符,整个识别字典的容量超过6000个字符;不同于场景文本的印刷体,试卷中均为手写体,由于其本身的流动性与书写者书写方式的多样性,识别难度陡然增加;不同于公开数据集上的较短文本,考试领域的文本行来自于考生书写的简答题,单个图像样本的文本长度往往超过30,这大大增加了文本识别的难度。

技术实现思路

[0006]为了解决现有技术的不足,本专利技术提供了面向考试领域的手写中文行识别方法及
系统;在该方法中主要侧重以下几方面:1)在特征矩阵序列化的过程中加入列注意力机制以对包含文本信息的像素赋予更高权重;2)提出了新颖的损失函数,使像素提取模块学习到有区分度的知识;3)结合CTC解码方式和Attention解码方式的优点,发挥不同解码方式的优势;4)对文本行包含的上下文信息进行建模,通过上下文信息辅助模型的训练与预测;5)使解码器模块化,实现在预测时通过移除特征序列化与循环神经网络的方式实现对多行段落的识别,并且提高识别速度。
[0007]第一方面,本专利技术提供了面向考试领域的手写中文行识别方法;面向考试领域的手写中文行识别方法,包括:获取待识别的单行手写中文图像;将待识别的单行手写中文图像,输入到训练后的第一手写中文行识别模型中,输出手写中文行识别结果;其中,所述训练后的第一手写中文行识别模型,包括:对待识别的单行手写中文图像进行特征提取,得到特征图;对特征图进行像素提取,得到特征图上包含文本信息的区域特征;对特征图上包含文本信息的区域特征进行压缩处理,得到序列化向量;对序列化向量进行上下文信息提取,得到上下文信息;对上下文信息进行分类,得到概率分布矩阵;对概率分布矩阵进行解码处理,得到最终的识别结果。
[0008]第二方面,本专利技术提供了面向考试领域的手写中文行识别系统;面向考试领域的手写中文行识别系统,包括:获取模块,其被配置为:获取待识别的单行手写中文图像;识别模块,其被配置为:将待识别的单行手写中文图像,输入到训练后的第一手写中文行识别模型中,输出手写中文行识别结果;其中,所述训练后的第一手写中文行识别模型,包括:对待识别的单行手写中文图像进行特征提取,得到特征图;对特征图进行像素提取,得到特征图上包含文本信息的区域特征;对特征图上包含文本信息的区域特征进行压缩处理,得到序列化向量;对序列化向量进行上下文信息提取,得到上下文信息;对上下文信息进行分类,得到概率分布矩阵;对概率分布矩阵进行解码处理,得到最终的单行手写中文图像的识别结果。
[0009]与现有技术相比,本专利技术的有益效果是:本专利技术在空间特征提取之后增加了像素提取模块,通过在特征图的每列上应用注意力机制,使模型自适应地学习到最具有文本信息的像素位置。
[0010]本专利技术针对像素提取模块提出了新颖且有效的损失函数,使模型可以真正关注到含有文本信息的像素,使像素提取模块学习到更具有区分度的知识,并通过最终的损失函数联合训练。
[0011]本专利技术结合了CTC解码和Attention解码方式的优点,从两个维度上实现了特征的隐式对齐,最终实现了优秀的识别效果。
[0012]本专利技术通过对文本行的上下文信息进行建模,让上下文信息可以辅助训练与预测。
[0013]本专利技术通过模块化思想,实现了两种方法路线,并且实现在预测时移除像素提取模块与上下文模块从而达到对多行文本行组成的段落图像进行识别的效果。
附图说明
[0014]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0015]图1为实施例一的识别单行文本的方法流程图;图2为实施例一的识别单行文本的第一手写中文行识别模型内部结构示意图;图3为实施例一的识别多行文本的方法流程图;图4为实施例一的识别多行文本的第二手写中文行识别模型内部结构示意图。
具体实施方式
[0016]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0017]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向考试领域的手写中文行识别方法,其特征是,包括:获取待识别的单行手写中文图像;将待识别的单行手写中文图像,输入到训练后的第一手写中文行识别模型中,输出手写中文行识别结果;其中,所述训练后的第一手写中文行识别模型,包括:对待识别的单行手写中文图像进行特征提取,得到特征图;对特征图进行像素提取,得到特征图上包含文本信息的区域特征;对特征图上包含文本信息的区域特征进行压缩处理,得到序列化向量;对序列化向量进行上下文信息提取,得到上下文信息;对上下文信息进行分类,得到概率分布矩阵;对概率分布矩阵进行解码处理,得到最终的识别结果。2.如权利要求1所述的面向考试领域的手写中文行识别方法,其特征是,所述训练后的第一手写中文行识别模型,其网络结构包括:依次连接的第一特征提取模块、第一像素提取模块、第一特征压缩模块、上下文提取模块、第一分类器和第一解码器;其中,所述第一特征提取模块,采用残差神经网络来实现;所述第一特征提取模块,用于对待识别的手写中文图像进行特征提取,得到特征图;所述第一像素提取模块,采用注意力机制模块来实现;所述第一像素提取模块,对特征图采用注意力机制模块进行处理,得到每个像素的权重;将特征图和每个像素的权重进行相乘,得到特征图上包含文本信息的区域特征;所述第一特征压缩模块,用于对特征进行压缩处理;所述上下文提取模块,通过双向长短期记忆网络来实现;所述第一分类器,通过一层全连接神经网络实现,其接收经过上下文提取模块处理后得到的特征向量作为输入,输出为概率分布矩阵;所述第一解码器,通过解码器来实现。3.如权利要求1所述的面向考试领域的手写中文行识别方法,其特征是,所述训练后的第一手写中文行识别模型,其训练过程包括:构建第一训练集;其中,所述第一训练集,为已知手写中文行识别结果的单行手写中文图像;将第一训练集,输入到第一手写中文行识别模型中,对模型进行训练,当模型的总损失函数值不再下降时,停止训练,得到训练后的第一手写中文行识别模型。4.如权利要求3所述的面向考试领域的手写中文行识别方法,其特征是,所述构建第一训练集,包括:对图像进行预处理,所述预处理,包括:数据增广处理、数据清洗处理和数据映射处理;所述数据增广处理,是通过高斯模糊、随机平移、随机裁剪、填充空白像素方式进行数据增广;所述数据清洗,处理,是指剔除非法数据;所述数据映射处理,是构建字符字典,然后根据字符字典将汉字映射为可训练的数字。5.如权利要求3所述的面向考试领域的手写中文行识别方法,其特征是,所述模型的总损失函数为:
;其中,epoch表示训练迭代轮数,表示解码器的损失函数,表示第一像素提取模块的损失函数,表示总损失函数。6.如权利要求1所述的面向考试领域的手写中文行识别方法,其特征是,所述方法,还包括:如果手写中文行识别是对多行手写中文图像的识别,则构建第二训练集;其中,所述第二训练集,为已...

【专利技术属性】
技术研发人员:许信顺李昊马磊陈义学李溢欢
申请(专利权)人:山东山大鸥玛软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1