基于行文本框纵向合并的文本内容提取识别方法技术

技术编号:34336603 阅读:16 留言:0更新日期:2022-07-31 03:06
本发明专利技术公开了一种基于行文本框纵向合并的文本内容提取识别方法,利用手指在设备摄像头下指出想要查看的题目,以图片的形式上传到服务器,通过简单算法就可以将和本题相关的所有的文字用一个矩形框框选出来,实现一个行的纵向合并,并且将矩形框中文字呈现出来。本发明专利技术根据文本框的位置信息、语义信息以及手指坐标信息,使用简单高效的算法实现多行相关文本框的合并,并将合并后文本框中的内容输出,该算法简单高效,解决了服务器资源不足的问题。同时本发明专利技术使用目标检测和手部检测识别实现找到手指关键点的坐标,使用现有模型加上后期训练后,精度提高,速度变快,可以更好配合文本框合并的算法。框合并的算法。框合并的算法。

Text content extraction and recognition method based on vertical merging of line text boxes

【技术实现步骤摘要】
基于行文本框纵向合并的文本内容提取识别方法


[0001]本专利技术属于计算机视觉及文本识别
,具体涉及一种基于行文本框纵向合并的文本内容提取识别方法。

技术介绍

[0002]当前,基于AI科技诞生的一个又一个相关产品,正在走入寻常百姓家,实用好用易用,能够满足使用者的个性化需求,全方位赋能各种学习场景。如通过将包含题目在内的一整张纸拍摄,然后再将题目所在位置进行截取,从而获取到题目的语义信息,拍照搜题的过程就是首先利用OCR(Optical Character Recognition)将图片中的题目处理识别成文字,然后根据用户的题目文本和平台数据库中的题库比对,找到最为相似的TOP 5,再将图片中的题目处理识别成文字的过程中,操作比较复杂,比较耗时;或者是在一些相关教育类软件中,需要通过将题目的内容输入到软件中,从而获取到相关题目。上述做法通过输入的方式获取相关题目,精确度不够高,容易找出错误的题目;若要改进上述操作复杂度、耗时、精确度等问题,需要涉及计算机视觉中的OCR技术、文本内容提取及合并等相关技术,OCR指的是电子设备(如扫描仪或数码相机)检查纸上的字符,通过检测暗、亮的模式确定其形状,而后利用字符识别方法将形状翻译成计算机文字描述的过程,文本框合并则是将几行文本框纵向合并为同一个文本框。
[0003]开号为CN113963342A的中国专利提供了一种基于文本框位置和字符信息的行合并方法,该方法基于文本框位置和字符信息的行合并方法,结合汉字的特征以及检测算法的特性,利用文本框的尺寸信息以及位置信息合并行,还原文本行信息,处理速度快,合并后的行文本符合原图片的文本信息,提高整体的识别精度;但该专利技术只是将属于一行的文字使用一个框横向的框选出来,实现了一个横向的合并,并没有实现纵向的合并。
[0004]公开号为CN113850208A的中国专利提供了一种图片信息结构化方法、装置、设备及介质,其采用文本识别网络和文本检测网络对图片进行文本检测和识别,以获取检测到的各个文本框的第一最小外接矩形及对应的文字信息,对文本检测网络获取的各文本框按照预设顺序进行排序,根据排序结果合并所有文本框的文字信息,以获取图片中的文本内容,采用正则规则从文本内容中提取目的标签的信息;该专利技术虽是纵向合并,但是将所有行进行合并,没有根据文本位置信息、语义信息选择某几行进行合并。

技术实现思路

[0005]鉴于上述,本专利技术提供了一种基于行文本框纵向合并的文本内容提取识别方法,利用手指在设备摄像头下指出想要查看的题目,以图片的形式上传到服务器,通过简单算法就可以将和本题相关的所有的文字用一个矩形框框选出来,实现一个行的纵向合并,并且将矩形框中文字呈现出来。
[0006]一种基于行文本框纵向合并的文本内容提取识别方法,包括如下步骤:
[0007](1)针对关于试卷、练习册的文本图像,先对图像进行预处理,然后采用现有的文
本检测算法将图像中的所有文本框及其信息提取识别出来;
[0008](2)采用现有的目标检测模型将指向题目的手部区域以矩形框的形式框选出来,进而在手部区域内检测出手指各关键节点的位置信息;
[0009](3)利用文本框信息以及手指关键节点的位置信息,将手指指向属于同一道题目的所有文本框纵向合并成一个矩形框提取出来;
[0010](4)利用现有的文本识别方法识别获取合并成的矩形框中的内容,该内容即为手指所指题目的文字描述。
[0011]进一步地,所述步骤(1)中对图像进行预处理包括了图像透视变换以及均值滤波去噪处理,其中图像透视变换采用的变换矩阵由拍摄图片的高度和角度自动进行调节;使用此方法可以提高后续文本检测、文本识别的精确度。
[0012]进一步地,所述步骤(1)中采用基于PaddleOCR的文本检测算法将图像中的文字框识别提取出来,在使用Paddle预训练模型的基础上,利用关于试卷、练习册的文本图像数据集进行训练,可有效提取出包括文字、标点符号、下划线在内的文本框,有效地弥补了Paddle检测识别错误、识别失效的情况发生,提高模型检测识别的精度。
[0013]进一步地,所述步骤(1)中提取识别出的文本框信息包括文本框四个顶点的位置、文本框内的文字内容以及置信度。
[0014]进一步地,所述步骤(2)中采用YOLOv5模型将指向题目的手部区域以矩形框的形式框选出来,同时利用骨骼检测将手指各关键节点的位置信息检测出来。
[0015]进一步地,所述步骤(3)的具体实现过程如下:
[0016]3.1根据手指指尖节点的位置信息,初步筛选符合条件的文本框;
[0017]3.2根据文本框的位置信息以及内容信息,从初步筛选保存的文本框集合中找出所指题目的所有文本框;
[0018]3.3将所指题目的所有文本框合并成一个矩形框。
[0019]进一步地,所述步骤3.1的具体实现方式为:首先从图像所有文本框中选出满足x_left≤x1≤x_right的文本框;然后在所选出的文本框中找出满足y_left<y1的文本框作为初步筛选结果;其中x_left为文本框左上顶点的x轴坐标值,x_right为文本框右上顶点的x轴坐标值,y_left为文本框左上顶点的y轴坐标值,x1和y1分别为手指指尖节点的x轴坐标值和y轴坐标值。
[0020]进一步地,所述步骤3.2的具体实现方式为:首先从初步筛选保存的文本框集合中找出离手指指尖节点最近的文本框记为T1且T1为所指题目的文本框,判断T1开头是否有题号,若有则停止搜索;若没有,则从所述文本框集合中找出T1之上最近的一个文本框记为T2,判断T1与T2是否满足以下关系,若不满足则舍弃T2并停止搜索;若满足则判定T2为所指题目的文本框,进而判断T2开头是否有题号,若有则停止搜索,若没有则依据上述继续向上搜索,直至判断完文本框集合中所有的文本框;
[0021]x3≤x2≤x4且frame_height≥frame_distance
[0022]其中:x2为T1中心点的x轴坐标值,x3为T2左上顶点的x轴坐标值,x4为T2右上顶点的x轴坐标值,frame_height为T2的框高,frame_distance为T2与T1之间的框距。
[0023]进一步地,所述步骤3.3的具体实现方式为:对于所指题目的所有文本框,找到这些文本框四个顶点中最大的x轴坐标值max_x、最大的y轴坐标值max_y、最小的x轴坐标值
min_x、最小的y轴坐标值min_y,然后确立左下顶点坐标为(min_x,min_y),右下顶点坐标为(max_x,min_y),右上顶点坐标为(max_x,max_y),左上顶点坐标为(min_x,max_y)的矩形框,该矩形框所框的文字就是手指指向题目的全部内容。
[0024]本专利技术根据文本框的位置信息、语义信息以及手指坐标信息,使用简单高效的算法实现多行相关文本框的合并,并将合并后文本框中的内容输出,该算法简单高效,解决了服务器资源不足的问题。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于行文本框纵向合并的文本内容提取识别方法,包括如下步骤:(1)针对关于试卷、练习册的文本图像,先对图像进行预处理,然后采用现有的文本检测算法将图像中的所有文本框及其信息提取识别出来;(2)采用现有的目标检测模型将指向题目的手部区域以矩形框的形式框选出来,进而在手部区域内检测出手指各关键节点的位置信息;(3)利用文本框信息以及手指关键节点的位置信息,将手指指向属于同一道题目的所有文本框纵向合并成一个矩形框提取出来;(4)利用现有的文本识别方法识别获取合并成的矩形框中的内容,该内容即为手指所指题目的文字描述。2.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(1)中对图像进行预处理包括了图像透视变换以及均值滤波去噪处理,其中图像透视变换采用的变换矩阵由拍摄图片的高度和角度自动进行调节。3.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(1)中采用基于PaddleOCR的文本检测算法将图像中的文字框识别提取出来,在使用Paddle预训练模型的基础上,利用关于试卷、练习册的文本图像数据集进行训练,可有效提取出包括文字、标点符号、下划线在内的文本框。4.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(1)中提取识别出的文本框信息包括文本框四个顶点的位置、文本框内的文字内容以及置信度。5.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(2)中采用YOLOv5模型将指向题目的手部区域以矩形框的形式框选出来,同时利用骨骼检测将手指各关键节点的位置信息检测出来。6.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(3)的具体实现过程如下:3.1根据手指指尖节点的位置信息,初步筛选符合条件的文本框;3.2根据文本框的位置信息以及内容信息,从初步筛选保存的文本框集合中找出所指题目的所有文本框;3.3将所指题目的所有文本框合并成一个矩形框。7.根据权利要求6所述的文本内容...

【专利技术属性】
技术研发人员:冯杰刘新天朱明航孟泽正张海翔
申请(专利权)人:浙江理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1