一种文本识别方法、装置、设备及存储介质制造方法及图纸

技术编号:25398669 阅读:24 留言:0更新日期:2020-08-25 23:03
本申请提出一种文本识别方法、装置、设备及存储介质,该方法包括:获取待识别图像的图像特征,其中,所述图像特征为,能够以其为依据预测所述待识别图像中包含的字符信息的图像特征,所述字符信息包括字符种类,以及各种类字符在所述待识别图像中出现的次数;利用所述图像特征进行文本识别处理,得到对所述待识别图像的文本识别结果。采用上述的文本识别方法对待识别图像进行文本识别时,能够准确识别出待识别图像中所包含的字符种类,并且能够准确识别各类字符在待识别图像中出现的次数,从而可以避免文本识别过程中出现多字或少字的现象,使得对待识别图像的文本识别结果更准确。

【技术实现步骤摘要】
一种文本识别方法、装置、设备及存储介质
本申请涉及图像处理
,尤其涉及一种文本识别方法、装置、设备及存储介质。
技术介绍
光学字符识别(OpticalCharacterRecognition,简称OCR)是计算机视觉的一个研究分支,其目标是从图像数据中识别出字符,并保存为计算机文本数据。传统的光学字符识别方法通常是先从图像中检测字符位置,然后对各个字符位置进行字符识别,确定图像中所包含的字符。当图像内容复杂时,传统的光学字符识别方法通常无法准确地识别出图像中的字符内容,例如对自然场景图像进行字符识别时,由于图像内容排布不规则,经常出现识别结果多字或少字的现象。
技术实现思路
基于上述技术现状,本申请提出一种文本识别方法、装置、设备及存储介质,能够以更高的准确度识别图像文本。一种文本识别方法,包括:获取待识别图像的图像特征,其中,所述图像特征为,能够以其为依据预测所述待识别图像中包含的字符信息的图像特征,所述字符信息包括字符种类,以及各种类字符在所述待识别图像中出现的次数;利用所述图像特征进行文本识别处理,得到对所述待识别图像的文本识别结果。一种文本识别装置,包括:特征获取单元,用于获取待识别图像的图像特征,其中,所述图像特征为,能够以其为依据预测所述待识别图像中包含的字符信息的图像特征,所述字符信息包括字符种类,以及各种类字符在所述待识别图像中出现的次数;文本识别单元,用于利用所述图像特征进行文本识别处理,得到对所述待识别图像的文本识别结果。一种文本识别设备,包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序;所述处理器,用于通过运行所述存储器中的程序,实现上述的文本识别方法。一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的文本识别方法。本申请提出的文本识别方法能够实现对待识别图像的文本识别,并且,按照本申请提出的文本识别方法,能够获取待识别图像的更加准确、更利于文本识别的图像特征,该图像特征具体是,能够以其为依据准确预测所述待识别图像中包含的字符种类,以及各种类字符在待识别图像中出现的次数的图像特征。基于本申请提出的文本识别方法从待识别图像中获取的图像特征的上述特点,采用本申请提出的文本识别方法对待识别图像进行文本识别时,能够准确识别出待识别图像中所包含的字符种类,并且能够准确识别各类字符在待识别图像中出现的次数,从而可以避免文本识别过程中出现多字或少字的现象,使得对待识别图像的文本识别结果更准确。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1(a)和图1(b)是本申请实施例提供的自然场景图像示例图;图2是本申请实施例提供的一种文本识别方法的流程示意图;图3是本申请实施例提供的一种文本识别模型的架构示意图;图4(a)是本申请实施例提供的进行图像矫正处理前的图像示例图;图4(b)是本申请实施例提供的对图4(a)所示的图像进行图像矫正处理后的图像示例图;图5是本申请实施例提供的对文本识别模型进行训练的流程示意图;图6是本申请实施例提供的度量字符识别结果与字符信息标签之间的差异的示意图;图7是本申请实施例提供的另一种文本识别模型的架构示意图;图8是本申请实施例提供的一种文本识别装置的结构示意图;图9是本申请实施例提供的一种文本识别设备的结构示意图。具体实施方式本申请实施例技术方案适用于OCR应用场景,采用本申请实施例技术方案,可以准确识别图像中的文本内容。特别的,本申请实施例技术方案适用于自然场景图像的文本识别。自然场景的文本图像的情况及其复杂,例如图1(a)和图1(b)所示,自然场景图像中存在大量的弯曲或倾斜的文本,以及,自然场景图像中可能有多行文本,并且文本的大小不一,文本位置随机。常规的OCR模型在应对自然场景图像文本识别任务时,通常无法准确识别自然场景图像中的各个文本,经常出现多字少字的现象。另一方面,在自然场景中,文字出现的频率差异很大,经常出现的文字的出现频率和不经常出现的文字的出现频率可能相差几十倍甚至更多,这很容易造成在文本识别过程中将生僻字识别成经常出现的文字,从而造成识别错误。常规的OCR模型在自然场景图像文本识别场景中,通常无法得到满意的识别结果,经常发生多字少字以及文字识别错误的情况。基于上述技术现状,本申请专利技术人经过研究提出一种改进的文本识别方法,采用该方法能够准确识别图像文本,尤其是能够准确识别自然场景图像中的文本,有效避免多字少字以及文字识别错误的现象。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提出一种文本识别方法,参见图2所示,该方法包括:S201、获取待识别图像的图像特征。上述的待识别图像,泛指包含文本内容的图像,其具体可以是针对任意场景进行拍摄得到的图像,或者是从任意的场景图像中截取的图像。例如可以是对自然场景进行拍摄得到的包含自然场景的图像,或者是对书本、文档上的特定文本片段进行拍摄、扫描得到的文本图像,或者是利用计算机对自然场景图像或电子文档进行截图得到的图像等。在本申请实施例中,上述的待识别图像,特指对自然场景进行拍摄得到的其中包含文本内容的图像,具体例如图1(a)和图1(b)所示。上述的待识别图像可以是拍摄得到,也可以是从图像数据库中读取得到,或者是接收得到等。在获取上述的待识别图像后,本申请实施例进一步获取该待识别图像的图像特征,例如对该待识别图像进行特征提取处理得到该待识别图像的图像特征,或者从图像数据库中读取预先存储的该待识别图像的图像特征等,任意的图像特征获取方式均可以被本申请实施例所采用。需要特别说明的是,本申请实施例获取的上述待识别图像的图像特征,是能够以其为依据预测所述待识别图像中包含的字符信息的图像特征,其中,上述的字符信息包括字符种类,以及各种类字符在所述待识别图像中出现的次数。可以理解,本申请实施例获取的待识别图像的图像特征,不仅仅是常规意义上的图像特征,特别的,本申请实施例所获取的待识别图像的图像特征,是能够用于预测待识别图像中包含的字符信息的图像特征,也就是说能够用于预测待识别图像中包含的字符种类,以及包含的各种类字符在待识别图像中出现的次数的图像特征。常规意义上的图像特征,例如现有OCR模型对图像进行特征提取得到的图像特征,仅仅能够表示图像本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n获取待识别图像的图像特征,其中,所述图像特征为,能够以其为依据预测所述待识别图像中包含的字符信息的图像特征,所述字符信息包括字符种类,以及各种类字符在所述待识别图像中出现的次数;/n利用所述图像特征进行文本识别处理,得到对所述待识别图像的文本识别结果。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
获取待识别图像的图像特征,其中,所述图像特征为,能够以其为依据预测所述待识别图像中包含的字符信息的图像特征,所述字符信息包括字符种类,以及各种类字符在所述待识别图像中出现的次数;
利用所述图像特征进行文本识别处理,得到对所述待识别图像的文本识别结果。


2.根据权利要求1所述的方法,其特征在于,获取待识别图像的图像特征,以及利用所述图像特征进行文本识别处理,得到对所述待识别图像的文本识别结果,包括:
将待识别图像输入预先训练的文本识别模型,得到对所述待识别图像的文本识别结果;
所述文本识别模型具备获取所述待识别图像的图像特征,并利用所述图像特征进行文本识别处理,得到对所述待识别图像的文本识别结果的能力;其中,所述文本识别模型获取的所述待识别图像的图像特征为,能够以其为依据预测所述待识别图像中包含的字符信息的图像特征。


3.根据权利要求2所述的方法,其特征在于,所述文本识别模型包括:
预处理模块,用于对所述待识别图像进行预处理,所述预处理包括图像矫正处理;
特征提取模块,用于提取预处理后的所述待识别图像的图像特征;其中,所述特征提取模块提取的预处理后的所述待识别图像的图像特征为,能够以其为依据预测所述待识别图像中包含的字符信息的图像特征;
特征处理模块,用于对所述待识别图像的图像特征进行序列转换及卷积处理;
文本识别模块,用于利用所述特征处理模块处理后的图像特征进行文本识别处理,得到对所述待识别图像的文本识别结果。


4.根据权利要求2所述的方法,其特征在于,所述文本识别模型的训练过程,包括:
获取图像样本的图像特征;
利用所述图像样本的图像特征进行文本识别处理,得到对所述图像样本的文本识别结果,以及,利用所述图像样本的图像特征,识别所述图像样本中包含的字符信息;
以识别到的字符信息趋近于所述图像样本的字符信息标签,以及,对所述图像样本的文本识别结果趋近于所述图像样本的文本标注标签为目标,对所述文本识别模型的运算参数进行更新;
其中,所述文本识别模型利用所述图像样本的图像特征进行文本识别处理,以及识别所述图像样本中包含的字符信息的过程中,将所述图像样本的高池化到设定高度,以便能够从任意形态的图像样本中识别文本信息,和/或识别所述图像样本中的任意方向的文本信息。


5.根据权利要求4所述的方法,其特征在于,所述获取图像样本的图像特征,包括:
利用所述文本识别模型中的特征提取模块获取所述图像样本的图像特征;
所述对所述文本识别模型的运算参数进行更新,包括:
对所述文本识别模型中的特征提取模块的运算参数进行更新。


6.根据权利要求4所述的方法,其特征在于,所述利用所述图像样本的图像特征,识别所述图像样本中包含的字符信息,包括:
根据所述图像样本的图像特征,分别确定对应每个图像特征序列元...

【专利技术属性】
技术研发人员:韩涛李梓赫谭昶
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1