基于行文本框纵向合并的文本内容提取识别方法技术

技术编号：34336603 阅读：16 留言：0更新日期：2022-07-31 03:06

本发明专利技术公开了一种基于行文本框纵向合并的文本内容提取识别方法，利用手指在设备摄像头下指出想要查看的题目，以图片的形式上传到服务器，通过简单算法就可以将和本题相关的所有的文字用一个矩形框框选出来，实现一个行的纵向合并，并且将矩形框中文字呈现出来。本发明专利技术根据文本框的位置信息、语义信息以及手指坐标信息，使用简单高效的算法实现多行相关文本框的合并，并将合并后文本框中的内容输出，该算法简单高效，解决了服务器资源不足的问题。同时本发明专利技术使用目标检测和手部检测识别实现找到手指关键点的坐标，使用现有模型加上后期训练后，精度提高，速度变快，可以更好配合文本框合并的算法。框合并的算法。框合并的算法。

Text content extraction and recognition method based on vertical merging of line text boxes

全部详细技术资料下载

【技术实现步骤摘要】
基于行文本框纵向合并的文本内容提取识别方法

[0001]本专利技术属于计算机视觉及文本识别
，具体涉及一种基于行文本框纵向合并的文本内容提取识别方法。

技术介绍

[0002]当前，基于AI科技诞生的一个又一个相关产品，正在走入寻常百姓家，实用好用易用，能够满足使用者的个性化需求，全方位赋能各种学习场景。如通过将包含题目在内的一整张纸拍摄，然后再将题目所在位置进行截取，从而获取到题目的语义信息，拍照搜题的过程就是首先利用OCR(Optical Character Recognition)将图片中的题目处理识别成文字，然后根据用户的题目文本和平台数据库中的题库比对，找到最为相似的TOP 5，再将图片中的题目处理识别成文字的过程中，操作比较复杂，比较耗时；或者是在一些相关教育类软件中，需要通过将题目的内容输入到软件中，从而获取到相关题目。上述做法通过输入的方式获取相关题目，精确度不够高，容易找出错误的题目；若要改进上述操作复杂度、耗时、精确度等问题，需要涉及计算机视觉中的OCR技术、文本内容提取及合并等相关技术，OCR指的是电子设备(如扫描仪或数码相机)检查纸上的字符，通过检测暗、亮的模式确定其形状，而后利用字符识别方法将形状翻译成计算机文字描述的过程，文本框合并则是将几行文本框纵向合并为同一个文本框。
[0003]开号为CN113963342A的中国专利提供了一种基于文本框位置和字符信息的行合并方法，该方法基于文本框位置和字符信息的行合并方法，结合汉字的特征以及检测算法的特性，利用文本框的尺寸信息以及位置信...

【技术保护点】

【技术特征摘要】
1.一种基于行文本框纵向合并的文本内容提取识别方法，包括如下步骤：(1)针对关于试卷、练习册的文本图像，先对图像进行预处理，然后采用现有的文本检测算法将图像中的所有文本框及其信息提取识别出来；(2)采用现有的目标检测模型将指向题目的手部区域以矩形框的形式框选出来，进而在手部区域内检测出手指各关键节点的位置信息；(3)利用文本框信息以及手指关键节点的位置信息，将手指指向属于同一道题目的所有文本框纵向合并成一个矩形框提取出来；(4)利用现有的文本识别方法识别获取合并成的矩形框中的内容，该内容即为手指所指题目的文字描述。2.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(1)中对图像进行预处理包括了图像透视变换以及均值滤波去噪处理，其中图像透视变换采用的变换矩阵由拍摄图片的高度和角度自动进行调节。3.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(1)中采用基于PaddleOCR的文本检测算法将图像中的文字框识别提取出来，在使用Paddle预训练模型的基础上，利用关于试卷、练习册的文本图像数据集进行训练，可有效提取出包括文字、标点符号、下划线在内的文本框。4.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(1)中提取识别出的文本框信息包括文本框四个顶点的位置、文本框内的文字内容以及置信度。5.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(2)中采用YOLOv5模型将指向题目的手部区域以矩形框的形式框选出来，同时利用骨骼检测将手指各关键节点的位置信息检测出来。6.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(3)的具体实现过程如下：3.1根据手指指尖节点的位置信息，初步筛选符合条件的文本框；3.2根据文本框的位置信息以及内容信息，从初步筛选保存的文本框集合中找出所指题目的所有文本框；3.3将所指题目的所有文本框合并成一个矩形框。7.根据权利要求6所述的文本内容...

【专利技术属性】
技术研发人员：冯杰，刘新天，朱明航，孟泽正，张海翔，
申请(专利权)人：浙江理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人