【技术实现步骤摘要】
一种基于指向向量的书本文字识别指读方法和系统
[0001]本专利技术涉及计算机视觉领域,尤其涉及一种基于指向向量的书本文字识别指读方法和系统。
技术介绍
[0002]光学字符识别(Optical Character Recognition, OCR)技术的进步,使其能够应用在更加复杂场景,特别是自然场景的文本识别任务中,如书本的点读、菜单的翻译、无人车路牌识别、机器人场景识别等。传统的OCR技术路线包括图像预处理、文字检测和文字识别等步骤。使用深度学习网络技术让文字识别流程更加简化,发展了高效的端到端OCR技术。然而,上述技术在执行识别任务时并没有考虑用户的识别意图,如手指手势信息、语音指令等。当设备无法正确理解用户意图时,输出的结果往往过于冗长,或是非用户所需。而当设备能正确处理用户意图,就能去除不必要的信息,输出更加精准的结果;而且能缩小图像识别的范围,缩短处理时间。
[0003]针对手指手势信息在文本识别任务中的处理,相关技术只是简单地通过手指位置,截取手指附近区域作为识别区域,并没有真正处理手指或手势的意图。 ...
【技术保护点】
【技术特征摘要】
1.一种基于指向向量的书本文字识别指读方法,其特征在于,包括以下步骤:步骤一:采集包含手部且手部的手指指向书本文字的图像,对图像进行预处理,得到文字特征图像;步骤二:基于文字特征图像,计算得到矫正角度;步骤三:对文字特征图像旋转矫正角度,并执行轮廓检测和外接矩形提取算法操作,得到图像的文本区域;步骤四:将经过矫正角度旋转的文字特征图像,进行手部关节检测和指尖检测,获得手指指尖点坐标及指向向量;步骤五:根据指尖点坐标、指向向量及每个文本区域的位置来筛选文本区域,再重组筛选出的文本区域得到目标识别图像;步骤六:将目标识别图像通过开源文字识别方法得到文字信息,即得出文字识别结果。2.如权利要求1所述的一种基于指向向量的书本文字识别指读方法,其特征在于,所述步骤一,具体包括以下步骤:步骤1.1:采集包含手部且手部的手指指向书本文字的图像,利用索贝尔算子的均值检测图像清晰度,若清晰度高于预先设定的阈值,则执行下一步,否则,终止操作,重新采集图像;步骤1.2:缩小原图像尺寸至原图像的四分之一,后进行形态学礼帽操作,接着采用索贝尔算子计算图像的横向梯度,然后进行形态学闭运算操作,再进行二值化操作得到文字特征图像。3.如权利要求2所述的一种基于指向向量的书本文字识别指读方法,其特征在于,所述步骤二,具体包括以下步骤:步骤2.1:使用霍夫变换寻找文字特征图像中的线条成分;步骤2.2:对寻找到的线条的倾斜角度排序,去除掉离群值,筛选线条的倾斜角,保留排名在前25%至75%的数据;步骤2.3:筛选得到的线条的平均倾斜角度即为矫正角度,当矫正角度不为0时,则对原图像旋转矫正角度得到矫正的图像,否则,直接使用原图像。4.如权利要求3所述的一种基于指向向量的书本文字识别指读方法,其特征在于,所述步骤四,具体包括以下步骤:步骤4.1:通过开源手指关节检测方法,识别得到图像中手的所有关节点坐标,若无法得到关节点坐标,则终止操作,重新采集图像;步骤4.2:根据关节点坐标,判断至少有一根手指是伸展的,即同一个手指上的末端关节点到手腕关节点的距离大于其他关节点到手腕关节点的距离,否则,终止操作,重新采集图像;步骤4.3:根据手的关节点的外接矩形截取得到一个包含手部的图像;步骤4.4:将截取图像转化成YCbCr颜色空间,提取Cr颜色层的图像,对提取的图像进行高斯模糊及二值化操作,然后进行外轮廓提取操作,对得到的外轮廓进行凸包点检测操作,将所述凸包点加入到凸包点队列中,从凸包点队列中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。