基于图片识别的试卷拆分方法、装置、设备以及介质制造方法及图纸

技术编号:23025323 阅读:42 留言:0更新日期:2020-01-03 17:00
本发明专利技术涉及计算机技术的技术领域,尤其是涉及一种基于图片识别的试卷拆分方法、装置、设备以及介质,基于图片识别的试卷拆分方法包括:S10:获取待拆分试卷文件,待拆分试卷文件的文件格式为图片格式,待拆分试卷文件中包括待提取试题信息;S20:对待拆分试卷文件进行角度纠正预处理,得到待识别试卷文件;S30:从待识别试卷文件中进行文字探测,得到试题位置信息;S40:根据试题位置信息,逐一对试题位置信息进行文字识别,得到对应的试题文字信息;S50:将试题文字信息进行组装,得到待提取试题信息对应的试题图片。本发明专利技术具有能够从照片或等图片格式的试卷中识别出具体题目,提升对试卷拆分的效率的效果。

Method, device, equipment and media of test paper splitting based on picture recognition

【技术实现步骤摘要】
基于图片识别的试卷拆分方法、装置、设备以及介质
本专利技术涉及计算机技术的
,尤其是涉及一种基于图片识别的试卷拆分方法、装置、设备以及介质。
技术介绍
目前,在学校中,尤其是对于高中需要参加高考的学生,为了让学生能够接触到更多的题目,提升学生的学习成绩,学生会参加大量的考试或是做大量的试题。在出题老师进行出题时,需要从大量的题库中或试卷中选取出对应的题目,进而组成新的试卷或练习卷。在制作题库的时候,通常是从现有的试题中,将试题中的题目进行拆分,进而将拆分出的题目作为题库。然而存在需要被拆分的试卷为照片、扫描件或PDF等格式的试卷,在从这些格式的试卷中获取试题时,难以直接从试卷中获取具体的题目,进而增大了对试卷拆分的工作量,影响了试卷拆分的效率,因此存在改进空间。
技术实现思路
本专利技术的目的是提供一种能够从照片、扫描件或PDF等格式的试卷中识别出具体题目,提升对试卷拆分的效率的基于图片识别的试卷拆分方法、装置、设备以及介质。本专利技术的上述专利技术目的一是通过以下技术方案得以实现的:一种基于图片识别的试卷拆分方法,所述基于图片识别的试卷拆分方法包括:S10:获取待拆分试卷文件,所述待拆分试卷文件的文件格式为图片格式或pdf格式,所述待拆分试卷文件中包括待提取试题信息;S20:对所述待拆分试卷文件进行角度纠正预处理,得到待识别试卷文件;S30:从所述待识别试卷文件中进行文字探测,得到试题位置信息;S40:根据所述试题位置信息,逐一对所述试题位置信息进行文字识别,得到对应的试题文字信息;S50:将所述试题文字信息进行组装,得到所述待提取试题信息对应的试题图片。通过采用上述技术方案,通过对图片或pdf等格式的待拆分试卷文件进行角度纠正预处理,能够使得图片中,试题的内容处于正常的位置,进而能够便于对待拆分试卷文件的识别;对待识别试卷文件进行文字探测,能够去除待拆分试卷文件中的噪点以及探测出试题文字的位置,得到该试题位置信息;从该试题位置信息中识别出试题文字信息,进而组装得到该试题图片,能够实现从该待拆分试卷文件中将具体的试题识别并进行拆分,有利于老师或者出题人员出题以及制作题库,提升了后续老师出题的效率,进而有助于提升学生的学习效果。本专利技术进一步设置为:步骤S20包括:S21:对所述待拆分试卷文件进行双峰法图像二值化处理后,得到所述待拆分试卷文件对应的二值图片;S22:根据所述二值图片的片像素点的分布,作为纠偏线索区域;S23:通过傅里叶变换,获取所述纠偏线索区域的最小外接矩形框,并通过所述最小外接矩形框获取图片倾斜角数据;S24:调整所述图片倾斜角数据至预设的角度阈值内,得到所述待识别试卷文件。通过采用上述技术方案,通过双峰法图像二值化对该待拆分试卷文件进行处理,能够使得提升获取得到的二值图片的效果;傅里叶变换对待拆分试卷文件进行处理,能够将待产分试卷文件的角度进行纠正;通过将傅里叶变换图进行二值化,能够凸显出待拆分试卷文件中的试题内容,便于对该待拆分试题文件的角度纠正。本专利技术进一步设置为:步骤S30包括:S31:采用文字识别OCR技术,在所述待识别试卷文件中识别出试卷文字,得到试卷文字区域;S32:获取所述试卷文字区域的坐标数据,并将所述坐标数据作为所述试题位置信息。通过采用上述技术方案,通过文字识别技术,在该待识别试卷文件中识别出文字内容,以及文字内容的试卷文字区域,能够在待识别试卷文件中,试题内容的位置,有利于进一步试题内容的位置进行文字识别,提升了文字识别的效率。本专利技术进一步设置为:步骤S40包括:S41:将每一试题位置信息中的所述待识别试卷文字输入至CNN网络,得到对应的文字特征图;S42:按照所述文字特征图的纬度对所述文字特征图进行切分后,输入至RNN网络中,得到对应的文字矩阵图;S43:对所述文字矩阵图进行解码识别,得到文字识别结果的索引值;S44:遍历所述文字识别结果的索引值,将每一所述索引值转换成所述试题文字信息。通过采用上述技术方案,通过采用CNN网络和RNN网络的人工智能的方法,能够从每一试题位置信息中将试题内容的文字识别出文字矩阵图以及对应的索引值,进而能够根据该索引值,转换成对应的试题文字信息,从而能够识别出待识别试卷文件中文字的具体内容,有利于后续得到具体的试题,实现对试卷的拆分。本专利技术进一步设置为:步骤S50包括:S51:逐行从所述试题文字信息中的获取试题文字;S52:将所述试题文字组成所述试题图片。通过采用上述技术方案,通过对试题文字进行识别,能够将待拆分试卷文件中的具体试题,组装成对应试题图片,进而实现了将待拆分试卷文件中的每一道试题拆分成对应的试题图片,在对该试题图片进行保存后,能够直接将该试题图片组装成新的试卷,或是有利于老师对历史的试题进行分析,制定新的教学计划。本专利技术的上述专利技术目的二是通过以下技术方案得以实现的:一种基于图片识别的试卷拆分装置,所述基于图片识别的试卷拆分装置包括:文件获取模块,用于获取待拆分试卷文件,所述待拆分试卷文件的文件格式为图片格式或pdf格式,所述待拆分试卷文件中包括待提取试题信息;角度纠正模块,用于对所述待拆分试卷文件进行角度纠正预处理,得到待识别试卷文件;文字探测模块,用于从所述待识别试卷文件中进行文字探测,得到试题位置信息;文字识别模块,用于根据所述试题位置信息,逐一对所述试题位置信息进行文字识别,得到对应的试题文字信息;试题组装模块,用于将所述试题文字信息进行组装,得到所述待提取试题信息对应的试题图片。通过采用上述技术方案,通过对图片或pdf等格式的待拆分试卷文件进行角度纠正预处理,能够使得图片中,试题的内容处于正常的位置,进而能够便于对待拆分试卷文件的识别;对待识别试卷文件进行文字探测,能够去除待拆分试卷文件中的噪点以及探测出试题文字的位置,得到该试题位置信息;从该试题位置信息中识别出试题文字信息,进而组装得到该试题图片,能够实现从该待拆分试卷文件中将具体的试题识别并进行拆分,有利于老师或者出题人员出题以及制作题库,提升了后续老师出题的效率,进而有助于提升学生的学习效果。本专利技术的上述专利技术目的三是通过以下技术方案得以实现的:一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于图片识别的试卷拆分方法的步骤。本专利技术的上述专利技术目的四是通过以下技术方案得以实现的:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于图片识别的试卷拆分方法的步骤。综上所述,本专利技术的有益技术效果为:1.通过对图片或pdf等格式的待拆分试卷文件进行角度纠正预处理,能够使得图片中,试题的内容处于正常的位置,进而能够便于对待拆分试卷文件本文档来自技高网...

【技术保护点】
1.一种基于图片识别的试卷拆分方法,其特征在于,所述基于图片识别的试卷拆分方法包括:/nS10:获取待拆分试卷文件,所述待拆分试卷文件的文件格式为图片格式,所述待拆分试卷文件中包括待提取试题信息;/nS20:对所述待拆分试卷文件进行角度纠正预处理,得到待识别试卷文件;/nS30:从所述待识别试卷文件中进行文字探测,得到试题位置信息;/nS40:根据所述试题位置信息,逐一对所述试题位置信息进行文字识别,得到对应的试题文字信息;/nS50:将所述试题文字信息进行组装,得到所述待提取试题信息对应的试题图片。/n

【技术特征摘要】
1.一种基于图片识别的试卷拆分方法,其特征在于,所述基于图片识别的试卷拆分方法包括:
S10:获取待拆分试卷文件,所述待拆分试卷文件的文件格式为图片格式,所述待拆分试卷文件中包括待提取试题信息;
S20:对所述待拆分试卷文件进行角度纠正预处理,得到待识别试卷文件;
S30:从所述待识别试卷文件中进行文字探测,得到试题位置信息;
S40:根据所述试题位置信息,逐一对所述试题位置信息进行文字识别,得到对应的试题文字信息;
S50:将所述试题文字信息进行组装,得到所述待提取试题信息对应的试题图片。


2.如权利要求1所述的基于图片识别的试卷拆分方法,其特征在于,步骤S20包括:
S21:对所述待拆分试卷文件进行双峰法图像二值化处理后,得到所述待拆分试卷文件对应的二值图片;
S22:根据所述二值图片的图片像素点的分布,作为纠偏线索区域;
S23:通过傅里叶变换,获取所述纠偏线索区域的最小外接矩形框,并通过所述最小外接矩形框获取图片倾斜角数据;
S24:调整所述图片倾斜角数据至预设的角度阈值内,得到所述待识别试卷文件。


3.如权利要求1所述的基于图片识别的试卷拆分方法,其特征在于,步骤S30包括:
S31:采用文字识别OCR技术,在所述待识别试卷文件中识别出试卷文字,得到试卷文字区域;
S32:获取所述试卷文字区域的坐标数据,并将所述坐标数据作为所述试题位置信息。


4.如权利要求1所述的基于图片识别的试卷拆分方法,其特征在于,步骤S40包括:
S41:将每一试题位置信息中的所述待识别试卷文字输入至CNN网络,得到对应的文字特征图;
S42:按照所述文字特征图的纬度对所述文字特征图进行切分后,输入至RNN网络中,得到对应的文字矩阵图;
S43:对所述文字矩阵图进行解码识别,得到文字识别结果的索引值;
S44:遍历所述文字识别结果的索引值,将每一所述索引值转换成所述试题文字信息。


5.如权利要求1所述的基于图片识别的试卷拆分方法,其特征在于,步骤S50包括:
S51:逐行从所述试...

【专利技术属性】
技术研发人员:白永睿徐宋传钟南林陈晓宇
申请(专利权)人:广州光大教育软件科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1