当前位置: 首页 > 专利查询>陈颖专利>正文

一种用于纸质书写作业或试卷的页面识别方法技术

技术编号:36366253 阅读:34 留言:0更新日期:2023-01-18 09:22
本发明专利技术公开了一种用于纸质书写作业或试卷的页面识别方法,本发明专利技术将常规书写作业或试卷等书写页面转换成图片进行处理,在此基础上对该图片进行OCR识别、筛选文本框等处理,并通过文本框和题号建立有效地识别机制,对题号及其边界进行识别,进而进行依题号区域切割,准确判断每个题目所覆盖的区域,对页面内容进行准确的判断,为书写轨迹与答案的批改奠定了基础。通过OCR文字识别,将学生作业的答题内容与题号进行关联,再通过与该题号的答案进行比对,从而可以实现基于作业或试卷图片的题号切割与智能批改。割与智能批改。割与智能批改。

【技术实现步骤摘要】
一种用于纸质书写作业或试卷的页面识别方法


[0001]本专利技术属于教育辅导
,特别涉及纸质作业或试卷的页面内容的识别方法。

技术介绍

[0002]近年来随着对学生教育和素质的重视,家长们希望提高孩子们的学习成绩及技能,由此家长们普遍开始对学生们进行课外辅导。
[0003]目前,课外辅导有两个大的方向,一是针对教材的解题辅导,二是辅导班自己命题的知识点辅导。网上也出现了例如作业帮等各类作业辅导APP,大部分是在系统内组题交由学生完成,再由系统针对知识点进行讲解和说明。但是,这些APP有一个致命的缺陷,就是不能与目前的教学体系匹配,学生通过这类APP的学习,不仅不能完成日常作业,还要额外做教学以外的辅导作业,学习压力变大,教与学分离,难以达到良好地教育效果;再之,APP等所形成的教学软件需要使用智能手机来完成,不仅学习成本高,同时反而给学生提供了一个玩游戏的机会,并不利于学习。
[0004]更重要的是,对于纸质书写作业及试卷,不仅体现的是教学内容,更是对学生书写技能、技巧等一个培训,如果确实了这一环,对学生来说,是一个很大的遗憾。因此,今年来,人们又逐渐开始重视纸质书写的教学。
[0005]为了对学生的纸质书写进行辅导及监控,人们研发出了各自辅导用具。例如,专利申请201611265588.9公开了一种书写状态监控系统和监控方法,该书写状态监控系统包括:书写工具以及用以设置书写状态下的标准图像信息的标准模式单元,设置在所述书写工具上用以采集用户在书写状态下的图像信息的图像采集单元;用以获取所述图像信息并将所述图像信息与所述标准图像信息进行比对的图像比对单元;和用以输出所述图像比对单元的图像信息比对结果的结果输出单元。该专利申请是利用获取图像来判断书写姿态,方便书写者在书写过程中及时矫正不良书写状态。
[0006]又如专利申请201910716356.8公开了一种文字识别方法及电子设备,该方法包括:采集包括书写页面的第一图像;从第一图像中识别书写笔迹,并利用OCR方式对书写笔迹进行文字联想识别,以识别出目标文字;对目标文字按照偏旁结构进行拆分,以得到第一拆分结果;对第一拆分结果进行识别,以得到第一文字识别结果;将书写笔迹按照偏旁结构进行拆分,以得到第二拆分结果;对第二拆分结果进行识别,以得到第二文字识别结果;根据第一文字识别结果和第二文字识别结果,输出书写笔迹对应的书写文字。
[0007]但是该申请是采用图像的模式对采集的书写内容进行识别,基于摄像头的制约,书写内容的识别准确率不高,且后续的判断是依据书写的笔画结构来进行判断,遇到连笔、字母串等容易识别错误,且对比的过程长,识别速度慢,效率低,难以得到有效地应用。为此,专利技术人提出了专利申请202011315629.7,以对此进行改良,该申请通过对书写轨迹进行识别,能够对识别的轨迹进行清楚地记录,避免了图形模式带来的错误,但是对于书写轨迹要与书写页面进行结合,才能进行答案的对比分析,而书写页面,通常是通过图片形式进行
录入的,对于这些图片形式的书写页面,如何分辨出书写内容及答案位置区域,尚需进一步明确。

技术实现思路

[0008]为解决上述问题,本专利技术提供一种用于纸质书写作业或试卷的页面识别方法,该方法通过学生作业或试卷书写页面的拍照或扫描图片进行分析,建立有效地识别机制,从而对页面内容进行准确的判断。
[0009]本专利技术的另一个目的在于提供一种用于纸质书写作业或试卷的页面识别方法,该方法通过对题号及其边界的识别,准确判断每个题目所覆盖的区域,从而为书写轨迹与答案的对比鉴定了基础。
[0010]为实现上述目的,本专利技术的技术方案如下:
[0011]一种用于纸质书写作业或试卷的页面识别方法,该方法主要包括一下步骤:
[0012]步骤一、开始;
[0013]步骤二、扫描图片;由于书写页面均是现实存在的纸质文件,需要对其进行扫描或者拍照才能获取,本文所说的扫描图片,就是包括采用扫描仪进行扫描和进行拍照两种方式,拍照可以采用任意具有拍摄功能的移动终端或相机来实现。
[0014]步骤二中,扫描图片后,还包括预处理,所述预处理包括清晰度调整、页面大小调整、页面倾斜角度调整。
[0015]进一步,所述清晰度调整,是通过调整图片的亮度及对比度来实现。所述页面大小调整,是通过调整页面的边界来实现。所述页面倾斜角度调整主要是通过角度旋转来实现,角度旋转有超过45
°
的大角度旋转,和小于45
°
的小角度旋转,小角度旋转通常是小于45
°
的任意角度调整,旋转的方式有左转和右转两种。
[0016]更进一步,所述预处理后,还包括有寻找并设置分栏界限;
[0017]所述分栏界限的寻找,是通过二分法来实现的,然后对分栏界限进行标识。
[0018]分栏时,以像素作为判断基础,像素越多,意味着具有文字内容,像素越少意味着是空白处。
[0019]步骤三、图片文字OCR识别;
[0020]所述OCR识别可以采用薪火OCR、天若OCR、树洞OCR、汉王OCR等多种软件来实现。
[0021]步骤四、筛选文本框,基于文字内容和位置筛选困难带有题号的文本框;
[0022]步骤五、形成所有可能的题号组合,建立最大范围的题号组合集;
[0023]步骤六、优化题号组合集;
[0024]进一步,优化题号组合集是指遍历题号组合集,寻找所有组合中最长路径的最佳匹配结果;
[0025]遍历题号包括有:
[0026]1)、构建题号的邻接图,形成邻接矩阵;
[0027]2)、寻找最长路径;
[0028]3)、寻找包括最多题号标志的路径,所述题号标识包括但不限于逗号、顿号、分号等标点符号。
[0029]步骤七、根据OCR识别文本框寻找所有题号的开始高度;
[0030]步骤八、确定每个题号的左右边界;
[0031]步骤九、确定每个题目框的界线。依据文本框的开始高度、左右边界及下一个文本框的高度,可以确定本题目的上下左右边界,即确定题目的界限。
[0032]与现有技术相比,本专利技术的有益效果是:
[0033]本专利技术将书写页面先进行扫描,在此基础上对所扫描的图片进行分析,通过文本框和题号建立有效地识别机制,对题号及其边界的识别,准确判断每个题目所覆盖的区域,从而对页面内容进行准确的判断,为书写轨迹与答案的对比奠定了基础。
[0034]由此,通过本专利技术有效识别题号与该题目的周边区域,结合学生作业或试卷书写页面的拍照或扫描图片中该题目区域内的OCR文字识别结果,通过OCR文字识别,将学生作业的答题内容与题号进行关联,准确地确定了题目内容,在此基础上通过与该题号的答案进行比对,从而可以实现基于作业或试卷图片的智能批改。
附图说明
[0035]图1为本专利技术所实现的流程图。
[0036]图2为本专利技术所实现的设置分栏示意图。
[0037]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于纸质书写作业或试卷的页面识别方法,该方法主要包括一下步骤:步骤一、开始;步骤二、扫描图片;步骤三、图片文字OCR识别;步骤四、筛选文本框,基于文字内容和位置筛选带有题号的文本框;步骤五、形成所有可能的题号组合,建立最大范围的题号组合集;步骤六、优化题号组合集;步骤七、根据OCR识别文本框寻找所有题号的开始高度;步骤八、确定每个题号的左右边界;步骤九、确定每个题目框的界线;依据文本框的开始高度、左右边界及下一个文本框的高度,可以确定本题目的上下左右边界,即确定题目的界限。2.如权利要求1所述的用于纸质书写作业或试卷的页面识别方法,其特征在于步骤二中,所述的扫描图片,包括采用扫描仪进行扫描和进行拍照两种方式。3.如权利要求2所述的用于纸质书写作业或试卷的页面识别方法,其特征在于步骤二中,扫描图片后,还包括预处理,所述预处理包括清晰度调整、页面大小调整、页面倾斜角度调整。4.如权利要求3所述的用于纸质书写作业或试卷的页面识别方法,其特征在于步骤二中,所述清晰度调整,是通过调整图片的亮度及对比度来实现。所述页面大小调整,是通过调整页面的边界来实现。所述页面倾斜角度调整主要是通过角度旋转来实现,角...

【专利技术属性】
技术研发人员:陈颖辛悦来
申请(专利权)人:陈颖
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1