一种文本图像方向矫正方法、装置及电子设备制造方法及图纸

技术编号:30544853 阅读:14 留言:0更新日期:2021-10-30 13:23
本发明专利技术属于图像处理技术领域,提供一种文本图像方向矫正方法、装置及电子设备,所述方法包括:获取第一文本图像;对所述第一文本图像按照N个预定旋转角度进行旋转操作,得到N个旋转图像,其中,N为大于等于二的自然数;根据所述N个旋转图像预估所述第一文本图像的矫正方向;根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正。本发明专利技术根据第一文本图像同步旋转后得到的多个方向的旋转图像综合判断第一文本图像的矫正方向,具有更高的准确率;并且可快速识别文本图像的矫正方向,同时还可以识别不包含文字的文本图像的矫正方向,操作简便,识别快速,应用范围广的优点。应用范围广的优点。应用范围广的优点。

【技术实现步骤摘要】
一种文本图像方向矫正方法、装置及电子设备


[0001]本专利技术属于图像处理
,特别适用于图像方向矫正技术,更具体的是涉及一种文本图像方向矫正方法、装置、电子设备及计算机可读介质。
[0002]本文所称文本图像指包含有文字和/或图案的图像;
[0003]本文所称文本图像方向指符合阅读习惯文本图像中文字和/或图案的的排列方向,例如文字为正的,不偏斜、不倒置;
[0004]本文所称识别方向或识别方向指题目识别过程中预定的字体或图案的方向,一般与阅读时文本、图像的通常排列方向一致。

技术介绍

[0005]目前,市面上出现了越来越多的拍照搜题类产品。通过这类产品,用户只需要拍摄要搜索的题目图像并上传即可找到相同或者相似的题目及答案,大大方便了题目检索。
[0006]现有拍照搜题主要通过图像识别和题目搜索来实现,先将用户上传文本图像中的文字或者图案识别出来,再交给检索系统对题库中已有的题目进行快速搜索,从而找到相同或者相似题目及答案。而在实际中,用户拍摄的文本图像中字体或图案的方向(即文本图像方向)并不总是与题目识别时预定的字体或图案的识别方向(即通常阅读方向)一致,会出现题目识别时字体或图案倒着(或者偏斜的较严重)的情况,导致对字体或者图案的识别错误,影响题目搜索的准确率,降低用户体验。

技术实现思路

[0007](一)要解决的技术问题
[0008]本专利技术旨在解决拍摄的文本图像的方向与识别方向不一致,导致题目识别错误的技术问题。
[0009](二)技术方案
[0010]为解决上述技术问题,本专利技术的一方面提出一种文本图像方向矫正方法,所述方法包括如下步骤:
[0011]获取第一文本图像;
[0012]对所述第一文本图像按照N个预定旋转角度进行旋转操作,得到N个旋转图像,其中,N为大于等于二的自然数;
[0013]根据所述N个旋转图像预估所述第一文本图像的矫正方向,所述矫正方向指为便于后续图像识别对所述第一文本图像进行旋转操作后的方向;
[0014]根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正。
[0015]根据本专利技术一种优选的实施方式,根据所述N个旋转图像预估所述第一文本图像的矫正方向,包括:
[0016]将所述N个旋转图像输入训练好的方向预估模型中评估各旋转图像的方向正确的概率;并将概率最大的旋转图像的方向作为所述第一文本图像的矫正方向。
[0017]可选地,所述方向预估模型为图像分类模型经训练后生成。
[0018]根据本专利技术一种优选的实施方式,所述方向预估模型包括:N个神经网络,和分别与所述N个神经网络连接的判断模块;所述N个神经网络分别计算输入的旋转图像的方向正确的概率;所述判断模块根据各旋转图像的方向正确的概率水平判断所述第一文本图像的矫正方向;
[0019]可选地,所述神经网络包括依次连接的浅层卷积网络和自注意力神经网络,所述自注意力神经网络与所述判断模块连接;所述浅层卷积网络用于提取旋转图像的特征数据;所述自注意力神经网络用于根据特征数据获取所述旋转图像的方向正确的概率;
[0020]可选地,所述浅层卷积网络包括:多个卷积块和一个全连接层;
[0021]可选地,每个所述卷积块包括卷积层、池化层、批量归一化层和激励层。
[0022]根据本专利技术一种优选的实施方式,所述自注意力神经网络基于Transformer模型;
[0023]可选地,所述自注意力神经网络包括:自注意力模块和二分类模块,所述自注意力模块用于将输入图像转化为满足所述二分类模块要求的规格,所述二分类模块用于得到所述旋转图像的方向正确的概率;
[0024]可选地,所述二分类模块包括全连接层和softmax层。
[0025]根据本专利技术一种优选的实施方式,对所述第一文本图像按照N个预定旋转角度进行旋转操作,得到N个旋转图像包括:
[0026]将所述第一文本图像转换为第一文本图像矩阵;
[0027]对所述第一文本图像矩阵进行矩阵操作,得到与所述N个旋转图像对应的N个旋转矩阵。
[0028]根据本专利技术一种优选的实施方式,所述预定旋转角度为四个,包括:所述第一文本图像不作旋转、将所述第一文本图像沿第一方向旋转90度、将所述第一文本图像方向沿第一方向旋转180度和将所述第一文本图像方向沿第一方向旋转270度;
[0029]所述对所述第一文本图像矩阵进行矩阵操作,得到与所述N个旋转图像对应的N个旋转图像矩阵,包括:
[0030]将所述第一文本图像矩阵直接作为所述第一旋转图像矩阵;
[0031]将所述第一文本图像矩阵进行转置后,再将转置后矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理,得到所述第二旋转图像矩阵;
[0032]将所述第一文本图像矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理后,再将处理后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理,得到所述第三旋转图像矩阵;
[0033]将所述第一文本图像矩阵进行转置后,再将转置后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理,得到所述第四旋转图像矩阵。
[0034]本专利技术第二方面提出一种拍照搜题方法,包括:
[0035]采集包含待搜索的目标题目的第一文本图像;
[0036]在进行目标题目识别前采用上述任一项所述的文本图像方向矫正方法对所述第一文本图像进行方向矫正;
[0037]对所述第一文本图像进行识别。
[0038]本专利技术第三方面提出一种文本图像方向矫正装置,所述装置包括:
[0039]获取模块,用于获取第一文本图像;
[0040]旋转模块,用于对所述第一文本图像按照N个预定旋转角度进行旋转操作,得到N个旋转图像,其中,N为大于等于二的自然数;
[0041]预估模块,用于根据所述N个旋转图像预估所述第一文本图像的矫正方向,所述矫正方向指为便于后续图像识别对所述第一文本图像进行旋转操作后的方向;
[0042]矫正模块,用于根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正。
[0043]本专利技术第四方面提出一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的方法。
[0044]本专利技术第五方面还提出一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的方法。
[0045](三)有益效果
[0046]本专利技术通过对第一文本图像按照N个预定旋转角度进行旋转操作,得到N个旋转图像,根据所述N个旋转图像预估所述第一文本图像的矫正方向,例如可通过将所述N个旋转图像作为特征数据输入训练好的方向预估模型中获取矫正方向等方式;根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正,从而保证文本图像方向与识别方向一致,提高题目识别准确率,提升用户体验。相较于现有技术,本专利技术根据第一文本图像旋转本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本图像方向矫正方法,其特征在于,所述方法包括如下步骤:获取第一文本图像;对所述第一文本图像按照N个预定旋转角度进行旋转操作,得到N个旋转图像,其中,N为大于等于二的自然数;根据所述N个旋转图像预估所述第一文本图像的矫正方向,所述矫正方向指为便于后续图像识别对所述第一文本图像进行旋转操作后的方向;根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正。2.根据权利要求1所述的文本图像方向矫正方法,其特征在于,根据所述N个旋转图像预估所述第一文本图像的矫正方向,包括:将所述N个旋转图像输入训练好的方向预估模型中评估各旋转图像的方向正确的概率;并将概率最大的旋转图像的方向作为所述第一文本图像的矫正方向。可选地,所述方向预估模型为图像分类模型经训练后生成。3.根据权利要求2所述的文本图像方向矫正方法,其特征在于,所述方向预估模型包括:N个神经网络,和分别与所述N个神经网络连接的判断模块;所述N个神经网络分别计算输入的旋转图像的方向正确的概率;所述判断模块根据各旋转图像的方向正确的概率水平判断所述第一文本图像的矫正方向;可选地,所述神经网络包括依次连接的浅层卷积网络和自注意力神经网络,所述自注意力神经网络与所述判断模块连接;所述浅层卷积网络用于提取旋转图像的特征数据;所述自注意力神经网络用于根据特征数据获取所述旋转图像的方向正确的概率;可选地,所述浅层卷积网络包括:多个卷积块和一个全连接层;可选地,每个所述卷积块包括卷积层、池化层、批量归一化层和激励层。4.根据权利要求3所述的文本图像方向矫正方法,其特征在于,所述自注意力神经网络基于Transformer模型;可选地,所述自注意力神经网络包括:自注意力模块和二分类模块,所述自注意力模块用于将输入图像转化为满足所述二分类模块要求的规格,所述二分类模块用于得到所述旋转图像的方向正确的概率;可选地,所述二分类模块包括全连接层和softmax层。5.根据权利要求1所述的文本图像方向矫正方法,其特征在于,对所述第一文本图像按照N个预定旋转角度进行旋转操作,得到N个旋转图像包括:将所述第一文本图像转换为第一文本图像矩阵;对所述第一文本图像矩阵进行矩阵操作,得到与所述N个旋转图...

【专利技术属性】
技术研发人员:李霄鹏袁景伟胡亚龙黄宇飞王岩
申请(专利权)人:作业帮教育科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1