基于图片识别的试卷拆分方法、装置、设备以及介质制造方法及图纸

技术编号：23025323 阅读：42 留言：0更新日期：2020-01-03 17:00

本发明专利技术涉及计算机技术的技术领域，尤其是涉及一种基于图片识别的试卷拆分方法、装置、设备以及介质，基于图片识别的试卷拆分方法包括：S10：获取待拆分试卷文件，待拆分试卷文件的文件格式为图片格式，待拆分试卷文件中包括待提取试题信息；S20：对待拆分试卷文件进行角度纠正预处理，得到待识别试卷文件；S30：从待识别试卷文件中进行文字探测，得到试题位置信息；S40：根据试题位置信息，逐一对试题位置信息进行文字识别，得到对应的试题文字信息；S50：将试题文字信息进行组装，得到待提取试题信息对应的试题图片。本发明专利技术具有能够从照片或等图片格式的试卷中识别出具体题目，提升对试卷拆分的效率的效果。

Method, device, equipment and media of test paper splitting based on picture recognition

全部详细技术资料下载

【技术实现步骤摘要】
基于图片识别的试卷拆分方法、装置、设备以及介质
本专利技术涉及计算机技术的
，尤其是涉及一种基于图片识别的试卷拆分方法、装置、设备以及介质。
技术介绍
目前，在学校中，尤其是对于高中需要参加高考的学生，为了让学生能够接触到更多的题目，提升学生的学习成绩，学生会参加大量的考试或是做大量的试题。在出题老师进行出题时，需要从大量的题库中或试卷中选取出对应的题目，进而组成新的试卷或练习卷。在制作题库的时候，通常是从现有的试题中，将试题中的题目进行拆分，进而将拆分出的题目作为题库。然而存在需要被拆分的试卷为照片、扫描件或PDF等格式的试卷，在从这些格式的试卷中获取试题时，难以直接从试卷中获取具体的题目，进而增大了对试卷拆分的工作量，影响了试卷拆分的效率，因此存在改进空间。
技术实现思路
本专利技术的目的是提供一种能够从照片、扫描件或PDF等格式的试卷中识别出具体题目，提升对试卷拆分的效率的基于图片识别的试卷拆分方法、装置、设备以及介质。本专利技术的上述专利技术目的一是通过以下技术方案得以实现的：一种基于图片识别的试卷拆分方法，所述基于图片识别的试卷拆分方法包括：S10：获取待拆分试卷文件，所述待拆分试卷文件的文件格式为图片格式或pdf格式，所述待拆分试卷文件中包括待提取试题信息；S20：对所述待拆分试卷文件进行角度纠正预处理，得到待识别试卷文件；S30：从所述待识别试卷文件中进行文字探测，得到试题位置信息；S40：根据所述试题位置信息，逐一对所述...

【技术保护点】
1.一种基于图片识别的试卷拆分方法，其特征在于，所述基于图片识别的试卷拆分方法包括：/nS10：获取待拆分试卷文件，所述待拆分试卷文件的文件格式为图片格式，所述待拆分试卷文件中包括待提取试题信息；/nS20：对所述待拆分试卷文件进行角度纠正预处理，得到待识别试卷文件；/nS30：从所述待识别试卷文件中进行文字探测，得到试题位置信息；/nS40：根据所述试题位置信息，逐一对所述试题位置信息进行文字识别，得到对应的试题文字信息；/nS50：将所述试题文字信息进行组装，得到所述待提取试题信息对应的试题图片。/n

【技术特征摘要】
1.一种基于图片识别的试卷拆分方法，其特征在于，所述基于图片识别的试卷拆分方法包括：
S10：获取待拆分试卷文件，所述待拆分试卷文件的文件格式为图片格式，所述待拆分试卷文件中包括待提取试题信息；
S20：对所述待拆分试卷文件进行角度纠正预处理，得到待识别试卷文件；
S30：从所述待识别试卷文件中进行文字探测，得到试题位置信息；
S40：根据所述试题位置信息，逐一对所述试题位置信息进行文字识别，得到对应的试题文字信息；
S50：将所述试题文字信息进行组装，得到所述待提取试题信息对应的试题图片。

2.如权利要求1所述的基于图片识别的试卷拆分方法，其特征在于，步骤S20包括：
S21：对所述待拆分试卷文件进行双峰法图像二值化处理后，得到所述待拆分试卷文件对应的二值图片；
S22：根据所述二值图片的图片像素点的分布，作为纠偏线索区域；
S23：通过傅里叶变换，获取所述纠偏线索区域的最小外接矩形框，并通过所述最小外接矩形框获取图片倾斜角数据；
S24：调整所述图片倾斜角数据至预设的角度阈值内，得到所述待识别试卷文件。

3.如权利要求1所述的基于图片识别的试卷拆分方法，其特征在于，步骤S30包括：
S31：采用文字识别OCR技术，在所述待识别试卷文件中识别出试卷文字，得到试卷文字区域；
S32：获取所述试卷文字区域的坐标数据，并将所述坐标数据作为所述试题位置信息。

4.如权利要求1所述的基于图片识别的试卷拆分方法，其特征在于，步骤S40包括：
S41：将每一试题位置信息中的所述待识别试卷文字输入至CNN网络，得到对应的文字特征图；
S42：按照所述文字特征图的纬度对所述文字特征图进行切分后，输入至RNN网络中，得到对应的文字矩阵图；
S43：对所述文字矩阵图进行解码识别，得到文字识别结果的索引值；
S44：遍历所述文字识别结果的索引值，将每一所述索引值转换成所述试题文字信息。

5.如权利要求1所述的基于图片识别的试卷拆分方法，其特征在于，步骤S50包括：
S51：逐行从所述试...

【专利技术属性】
技术研发人员：白永睿，徐宋传，钟南林，陈晓宇，
申请(专利权)人：广州光大教育软件科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人