一种文字方向确定方法、装置、设备及存储介质制造方法及图纸

技术编号:24709191 阅读:24 留言:0更新日期:2020-07-01 00:09
本发明专利技术公开了一种文字方向确定方法、装置、设备及存储介质,包括:从待识别文字图像中提取多个单字图像;通过预训练的检测模型对多个单字图像进行方向识别;基于多个单字图像的方向识别结果确定待识别文字图像的正方向。本实施例通过单字图像的方向检测出整个文本图像的正方向,快速确定文字图像的方向,提高检测的准确度。

【技术实现步骤摘要】
一种文字方向确定方法、装置、设备及存储介质
本专利技术实施例涉及图像处理
,尤其涉及一种文字方向确定方法、装置、设备及存储介质。
技术介绍
随着计算机技术的快速发展,图像识别识别技术也得到了快速发展,文字识别一直是图像识别领域的重要研究课题之一。文字图像识别一般通过文字检测、文字识别、所需字段提取的方式实现。在日常证照识别开发过程中,会面对各种扫描、拍照等复杂场景,输入文字图像的方向可能出现旋转90、180、270度的情况。然而,所有的文字图像识别的前提是确定待识别文字图像的正方向。如何快速确定待识别文字图像的方向是图像识别领域的关键问题。
技术实现思路
本专利技术提供一种文字方向确定方法、装置、设备及存储介质,以快速确定文字图像的方向。第一方面,本专利技术实施例提供了一种文字方向确定方法,包括:从待识别文字图像中提取多个单字图像;通过预训练的检测模型对多个所述单字图像进行方向识别;基于多个单字图像的方向识别结果确定待识别文字图像的正方向。第二方面,本专利技术实施例还提供了一种文字方向确定装置,其特征在于,包括:提取模块,用于从待识别文字图像中提取多个单字图像;识别模块,用于通过预训练的检测模型对多个所述单字图像进行方向识别;确定模块,用于基于多个单字图像的方向识别结果确定待识别文字图像的正方向。第三方面,本专利技术实施例还提供了一种设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本专利技术任一实施例所述的文字方向确定方法。第四方面,本专利技术实施例还提供了一种存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如本专利技术任一实施例所述的文字方向确定方法。本专利技术实施例提供的文字方向确定方法、装置、设备及存储介质,从待识别文字图像中提取多个单字图像;通过预训练的检测模型对多个单字图像进行方向识别;基于多个单字图像的方向识别结果确定待识别文字图像的正方向。本实施例通过单字图像的方向检测出整个文本图像的正方向,快速确定文字图像的方向,提高检测的准确度。附图说明图1是本专利技术实施例一提供的文字方向确定方法的流程图;图2是本专利技术实施例二提供的一种检测模型训练方法的流程图;图3是本专利技术实施例二提供的卷积神经网络的结构示意图;图4是本专利技术实施例二提供一种文字方向检测方法的流程图;图5是本专利技术实施例三提供的文字方向确定装置的结构示意图;图6是本专利技术实施例四提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。文字图像识别一般通过文字检测、文字识别、所需字段提取的方式实现。在日常证照识别开发过程中,会面对各种扫描、拍照等复杂场景,输入文字图像的方向可能出现旋转90、180、270度的情况。目前光学字符识别(OpticalCharacterRecognition,OCR)文本图像文字方向判断的技术方案主要有两种。OCR技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。第一种,基于图像特征的方法,使用卷积神经网络,通过大量的四种方向的样本图像进行训练,提取图像特征进行分类,直接输出图像文本的方向。第二种,将图像文本进行旋转,分别对文本图像进行定位识别,并与常用字符集进行对比,由于其他角度的图像文本识别的结果属于常用字符集的概率较低,根据统计结果来确定图片文本正方向的旋转角度。基于图像特征提取的方案具有预测速度快的优点,经过卷积神经网络提取特征后能够快速的输出分类结果,但是对于背景复杂的场景准确率难以保证,且依赖大量的训练样本图片。基于多次旋转统计识别结果的方案准确率比较高,但是由于每次旋转后都需要对图像整体做文本定位、文本识别,耗时较长,效率较低。实施例一图1是本专利技术实施例一提供的文字方向确定方法的流程图,本实施例可适用于识别文本图像的情况,该方法可以由文字方向确定装置来执行,该装置可以通过软件和/或硬件的方式来实现。如图1所示,本专利技术实施例提供的文字方向确定方法可以包括如下步骤:S11、从待识别文字图像中提取多个单字图像。在本实施例中,文字图像可以理解为包含有文字内容的图像。所述文字图像可以是证件照图片、票据图片、网页截取图片等图片的任意一种,本实施例不进行限定。单字图像可以理解为仅包括一个文字的图像。从待识别文字图像中提取多个单字图像可以理解为获取到识别文字图像后,对待识别文字图像中的文字字符进行定位,根据定位结果对待识别文字图像中的字符进行切割操作,得到待识别文字图像中包含的各个文字的单字图像。具体的,可以通过滤波方式去除待识别文字图像中的噪声干扰,利用Hough变换去除干扰先等,对于粘连字符,可以利用地说算法进行字符切割。这样可以使得对于含有噪声及笔画断裂的文字也能得到较好的识别效果。所述多个单字图像可以是待识别文字图像中提取出的所有的单字图像,也可以是提取到的所有单字图像中的一部分。在多个单字是待识别文本图像中一部分文字的情况下,可以将待识别文字图像中提取所有的单字图像后,从所有单字图像中选择其中一部分单字图像;也可以是从待识别文字图像中选择一部分文字图像进行提取。即可以先提出所有单字图像,再选择部分单字图像,也可以是先选定待提取的单字图像,再进行单字提出。需要说明的是,本实施例中仅对提取多个单字图像的方式进行说明,而非限定。进一步的,多个单字图像分布在文字图像的不同部分。将待识别文字图像平均划分为第一预设数量的图像区域,可以在每个图像区域内选择第二预设数量的为文字作为单字。需要说明的是,第一预设数量可以根据待识别文字图像的尺寸来确定。第二预设数量可以根据每个图像区域内的文字总数来确定。需要说明的是,本实施例中仅对单字图像的位置和数量的方式进行说明,而非限定。S12、通过预训练的检测模型对多个所述单字图像进行方向识别。在本实施例汇总,检测模型可以理解为卷积神经网络。检测模型可以通过大量样本单字图像输入卷积神经网络进行训练得到。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。深度学习是机器学习领域中的一个新的研究方向,通过神经网络学习样本数据的内在规律和表示层次,组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据本文档来自技高网...

【技术保护点】
1.一种文字方向确定方法,其特征在于,包括:/n从待识别文字图像中提取多个单字图像;/n通过预训练的检测模型对多个所述单字图像进行方向识别;/n基于多个单字图像的方向识别结果确定待识别文字图像的正方向。/n

【技术特征摘要】
1.一种文字方向确定方法,其特征在于,包括:
从待识别文字图像中提取多个单字图像;
通过预训练的检测模型对多个所述单字图像进行方向识别;
基于多个单字图像的方向识别结果确定待识别文字图像的正方向。


2.根据权利要求1所述的方法,其特征在于,所述基于多个单字图像的方向识别结果确定待识别文字图像的正方向,包括:
如果正方向的单字图像数量与所有单字图像数量的比例大于或等于预设值,则确定当前方向为待识别文字图像的正方向;
如果正方向的单字图像数量与所有单字图像数量的比例小于预设值,则获取旋转后的待识别文字图像,并返回执行从待识别文字图像中提取多个单字图像的操作,直到确定待识别文字图像的正方向。


3.根据权利要求2所述的方法,其特征在于,所述获取旋转后的待识别文字图像之前,还包括:
输出待识别文字图像的旋转角度;
基于所述旋转角度将待识别文字图像进行旋转。


4.根据权利要求1所述的方法,其特征在于,所述从待识别文字图像中提取多个单字图像之前,还包括:
获取各个方向的样本单字图像;
将所述各个方向的样本单字图像输入卷积神经网络进行训练,得到预训练的检测模型。


5.根据权利要求4所述的方法,其特征在于,将所述各个方向的样本单字图像输入卷积神经网络进行训练之前,还...

【专利技术属性】
技术研发人员:熊博颖
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1