一种识别文本的方法及终端设备技术

技术编号:26610909 阅读:76 留言:0更新日期:2020-12-04 21:36
本申请实施例涉及一种识别文本的方法,方法包括:按照第一缩放比例缩放待识别图像;确定缩放后待识别图像中的文本行区域对应的第一坐标信息;按照第一缩放比例确定第一坐标信息对应的第二坐标信息,第二坐标信息为待识别图像中文本行区域的坐标信息;通过识别模型对第二坐标信息对应的文本行图像进行文字识别,确定文本行图像对应的文本行内容;待识别图像包括文本行图像。本申请实施例避免了使用滑窗分割出的子图多次调用NPU造成的资源浪费。结合移动终端应用低响应延时、低功耗的实际需求,基于NPU技术规格,使得能够发挥端侧AI专用芯片的优势,可并发一次处理多文本行、提升NPU使用率,并提高OCR产品用户体验。

【技术实现步骤摘要】
【国外来华专利技术】一种识别文本的方法及终端设备
本申请涉及人工智能领域,尤其涉及一种识别文本方法及终端设备。
技术介绍
当前移动终端的发展十分快速,很多厂商都打出人工智能(artificialintelligence,AI)手机的宣传。其中,视觉相关领域因为采集方便、交互友善、信息丰富、端测可计算、应用效率高等特点,使得视觉相关领域成为了移动终端AI技术的关键点。而光学字符识别(opticalcharacterrecognition,OCR)由于其字符多样、出现场景复杂、语义信息丰富的特性成为视觉处理中的难点、重点。在一些现有的文本识别方案中,通过在输入图像上使用滑动窗口技术(以下简称滑窗),以带有重叠区域的方式将原图分割为多个子图,之后将分割出的多个子图送入神经网络进行检测。但是由于使用滑窗将原图分割为多个子图,每个子图都需要调用模型,则会造成多次调用模型,使得在处理图像上造成非常大的计算开销。同时由于多个子图带有重叠区域,将造成严重的资源浪费。由于分割为多个子图,在最后还需要额外的进行合并操作。该方案整体上会造成严重的资源浪费和消耗。对于高质量图片的文本识别来说则资源浪费和消耗的问题将变得更加明显。而在另一些方案中,同样使用滑窗对文本行图像进行滑动选取,根据中英文字符不同设置4或8的滑动步长,同时在滑动过程中,滑窗在图像边缘进行填充,以照顾到边缘文本,然后送入神经网络中进行识别。由于步长设置为4或8,则在送入神经网络中识别计算时,则会造成4或8倍的重复计算,造成浪费。在原始图层上进行滑窗截断时,将一副图像的所有滑窗拼接后使用基于神经网络的时序分类(connectionisttemporalclassification,CTC)计算输入序列和样本真实内容(groundtruth,gt)序列的损失(loss),会使得CTC的效用没有得到真正的发挥。并且在处理一张图片时,由于需要对每个文本行都进行滑窗操作,但每时刻的神经网络计算单元(neuralnetworkprocessingunit,NPU)只能一次处理一行文本,文本行间的并行能力极差。因此需要多次调用NPU处理。对于现有的一些文本识别方案来说,通过使用滑窗进行图像分割,造成严重的资源浪费以及额外的计算开销,同时还需多次调用NPU,造成了文本识别响应时间过长,严重影响体验效果。
技术实现思路
本申请实施例提供了一种识别文本的方法及终端设备,通过对原始图像进行缩放,找到图片中文本行的坐标,然后还原到原图上。从原图中找到相应的文本行图像,将文本行图像送入识别模型中进行文字识别。避免了使用滑窗分割出的子图多次调用NPU造成的资源浪费。结合移动终端应用低响应延时、低功耗的实际需求,基于NPU技术规格,使得能够发挥端侧AI专用芯片的优势,可并发一次处理多文本行、提升NPU使用率,并提高OCR产品用户体验。第一方面,本申请实施例提供了一种识别文本的方法,方法包括:按照第一缩放比例缩放待识别图像;确定缩放后待识别图像中的文本行区域对应的第一坐标信息;按照第一缩放比例确定第一坐标信息对应的第二坐标信息,第二坐标信息为待识别图像中文本行区域的坐标信息;通过识别模型对第二坐标信息对应的文本行图像进行文字识别,确定文本行图像对应的文本行内容;待识别图像包括文本行图像。在一种可能的实施方式中,待识别图像中包括至少一个文本行区域;确定缩放后待识别图像中的文本行区域对应的第一坐标信息,包括:利用神经网络对缩放后待识别图像进行文本区域检测,得到至少一个待选区域的置信度;置信度为至少一个待选区域中包含文本行的概率值;删除置信度小于第一置信度阈值的至少一个待选区域,并对其余的至少一个待选区域的置信度进行排序,选出置信度最高的待选区域;将选出的待选区域与未选出的待选区域进行组合,对未进行组合的至少一个待选区域的置信度进行排序,选出置信度最高的待选区域,将选出的待选区域与未选出的待选区域进行组合,直至所有待选区域全部组合后,确定组合后的至少一个文本行区域的第一坐标信息。在一种可能的实施方式中,将选出的待选区域与未选出的待选区域进行组合,包括:当未选出的待选区域与选出的待选区域重合面积比值大于等于第一面积比值阈值时,通过非极大值抑制算法将两个待选区域中置信度低的待选区域删除;当未选出的待选区域与选出的待选区域在长边方向上相邻或在长边方向上重合面积小于第一面积比值阈值时,将未选出的待选区域与选出的待选区域合并为一个区域。在一种可能的实施方式中,在通过识别模型对第二坐标信息对应文本行图像进行识别的步骤之前,方法还包括:从待识别图像中获取第二坐标信息对应的文本行图像;对文本行图像进行灰度化处理;将灰度化处理后的文本行图像送入识别模型进行文字识别。在一种可能的实施方式中,将灰度化处理后的文本行图像通过识别模型进行文字识别之前,方法还包括:将灰度化处理后的文本行图像分为水平方向、竖直方向和非水平非竖直方向三类;针对非水平非竖直方向的文本行图像进行仿射变换,使得所有文本行图像都处于水平方向或竖直方向;遍历全部竖直方向的文本行图像,将每个竖直方向的文本行图像拆分为多个水平方向的文本行图像并进行标注。在一种可能的实施方式中,将每个竖直方向的文本图像行拆分为多个水平方向的文本行图像并进行标注,包括:采用水平标注形式,将每个竖直方向的文本行图像拆分成多个单字符的水平方向的文本行图像并进行标注。在一种可能的实施方式中,通过识别模型对第二坐标信息对应的文本行图像进行文字识别,还包括:按照第二缩放比例对第二坐标信息对应的文本行图像进行缩放,并对缩放后的文本行图像进行文字识别。在一种可能的实施方式中,将文本行图像缩放到第二像素比例的方式包括:等比缩放、等宽缩放、等长缩放、平铺缩放和补零缩放。在一种可能的实施方式中,识别模型还用于识别空格字符。在一种可能的实施方式中,识别模型内的算子不包括卷积操作外的滑窗和循环神经网络算子层。第二方面,本申请实施例提供了一种识别文本的方法,包括:获取多个文本行数据;通过预设标签对多个文本行数据中的空格字符进行标注;根据标注后的文本行数据更新识别模型,更新后的识别模型还用于识别空格字符。第三方面,本申请实施例提供了一种终端设备,终端设备包括:处理器、检测器、文字识别器;处理器,用于按照第一缩放比例缩放待识别图像;检测器,用于确定缩放后待识别图像中的文本行区域对应的第一坐标信息;按照第一缩放比例确定第一坐标信息对应的第二坐标信息,第二坐标信息为待识别图像中文本行区域的坐标信息;文字识别器,用于通过识别模型对第二坐标信息对应的文本行图像进行文字识别,确定文本行图像对应的文本行内容;待识别图像包括文本行图像。在一种可能的实施方式中,待识别图像中包括至少一个文本行区域;检测器还用于:利用神经网络对缩放后待识别图像进行文本区域检测,得到至少一个待选区域的置信度;置信度为至少一个待选区域中包含文本行的概率值;删除置信度小于第一置信度阈值的至少一个待选区域,并对其余的至少一个待选区域的置信度进行排序,选出置信度最高的待选区域;将选出的本文档来自技高网
...

【技术保护点】
一种识别文本的方法,其特征在于,所述方法包括:/n按照第一缩放比例缩放待识别图像;/n确定缩放后待识别图像中的文本行区域对应的第一坐标信息;/n按照所述第一缩放比例确定所述第一坐标信息对应的第二坐标信息,所述第二坐标信息为所述待识别图像中文本行区域的坐标信息;/n通过识别模型对所述第二坐标信息对应的文本行图像进行文字识别,确定所述文本行图像对应的文本行内容;所述待识别图像包括所述文本行图像。/n

【技术特征摘要】
【国外来华专利技术】一种识别文本的方法,其特征在于,所述方法包括:
按照第一缩放比例缩放待识别图像;
确定缩放后待识别图像中的文本行区域对应的第一坐标信息;
按照所述第一缩放比例确定所述第一坐标信息对应的第二坐标信息,所述第二坐标信息为所述待识别图像中文本行区域的坐标信息;
通过识别模型对所述第二坐标信息对应的文本行图像进行文字识别,确定所述文本行图像对应的文本行内容;所述待识别图像包括所述文本行图像。


根据权利要求1所述的方法,其特征在于,所述待识别图像中包括至少一个文本行区域;所述确定缩放后待识别图像中的文本行区域对应的第一坐标信息,包括:
利用神经网络对缩放后待识别图像进行文本区域检测,得到至少一个待选区域的置信度;所述置信度为所述至少一个待选区域中包含文本行的概率值;
删除置信度小于第一置信度阈值的所述至少一个待选区域,并对其余的所述至少一个待选区域的置信度进行排序,选出置信度最高的所述待选区域;将选出的待选区域与未选出的待选区域进行组合,对未进行组合的所述至少一个待选区域的置信度进行排序,选出置信度最高的所述待选区域,将选出的待选区域与未选出的待选区域进行组合,直至所有待选区域全部组合后,确定组合后的至少一个文本行区域的第一坐标信息。


根据权利要求2所述的方法,其特征在于,所述将选出的待选区域与未选出的待选区域进行组合,包括:
当所述未选出的待选区域与所述选出的待选区域重合面积比值大于等于第一面积比值阈值时,通过非极大值抑制算法将两个待选区域中置信度低的待选区域删除;
当所述未选出的待选区域与所述选出的待选区域在长边方向上相邻或在长边方向上重合面积比值小于第一面积比值阈值时,将所述未选出的待选区域与所述选出的待选区域合并为一个区域。


根据权利要求1所述的方法,其特征在于,在通过识别模型对所述第二坐标信息对应文本行图像进行识别的步骤之前,所述方法还包括:
从所述待识别图像中获取所述第二坐标信息对应的文本行图像;
对所述文本行图像进行灰度化处理;
将灰度化处理后的所述文本行图像送入识别模型进行文字识别。


根据权利要求4所述的方法,其特征在于,所述将灰度化处理后的所述文本行图像通过识别模型进行文字识别之前,所述方法还包括:
将灰度化处理后的文本行图像分为水平方向、竖直方向和非水平非竖直方向三类;
针对非水平非竖直方向的文本行图像进行仿射变换,使得所有文本行图像都处于水平方向或竖直方向;
遍历全部竖直方向的文本行图像,将每个竖直方向的文本行图像拆分为多个水平方向的文本行图像并进行标注。


根据权利要求5所述的方法,其特征在于,所述将每个竖直方向的文本图像行拆分为多个水平方向的文本行图像并进行标注,包括:
采用水平标注形式,将每个竖直方向的文本行图像拆分成多个单字符的水平方向的文本行图像并进行标注。


根据权利要求1所述的方法,其特征在于,所述通过识别模型对所述第二坐标信息对应的文本行图像进行文字识别,还包括:按照第二缩放比例对所述第二坐标信息对应的文本行图像进行缩放,并对缩放后的文本行图像进行文字识别。


根据权利要求7所述的方法,其特征在于,所述将所述文本行图像缩放到第二像素比例的方式包括:等比缩放、等宽缩放、等长缩放、平铺缩放和补零缩放。


根据权利要求1所述的方法,其特征在于,所述识别模型还用于识别空格字符。


一种识别文本的方法,其特征在于,包括:
获取多个文本行数据;
通过预设标签对所述多个文本行数据中的空格字符进行标注;
根据标注后的文本行数据更新识别模型,更新后的所述识别模型还用于识别空格字符。


一种终端设备,其特征在于,所述终端设备包括:处理器、检测器、文字识别器;
所述处理器,用于按照第一缩放比例缩放待识别图像;
所述检测器,用于确定缩放后待识别图像中的文本行区域对应的第一坐标信息;
按照所述第一缩放比例确定所述第...

【专利技术属性】
技术研发人员:谢淼施烈航姚恒志勾军委
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1