文本识别方法技术

技术编号:38440658 阅读:11 留言:0更新日期:2023-08-11 14:23
本申请公开一种文本识别方法,包括:针对单字符图像,通过第一文本识别模型获得第一识别结果,通过第二文本识别模型获得第二识别结果;若第一识别结果与第二识别结果相同,则输出第一识别结果或第二识别结果;若第一识别结果与第二识别结果不相同,且第一识别结果为生僻字的情况下,则输出第一识别结果。本申请可以采用单字符识别方式,省去了实现难度较高的行检测及切分环节,从而解决了复杂拍摄环境和拍摄不规范带来的识别精度下降问题。另外,还可以利用第一文本识别模型的优势来准确识别生僻字,又可以利用第二文本识别模型来准确识别生僻字的形近字,从而解决了模型更新生僻字后导致对形近字的识别精度降低的问题。后导致对形近字的识别精度降低的问题。后导致对形近字的识别精度降低的问题。

【技术实现步骤摘要】
文本识别方法


[0001]本申请涉及文本处理
,特别涉及一种文本识别方法、计算机可读存储介质、电子设备及计算机程序产品。

技术介绍

[0002]文本识别是文本处理领域的重要技术手段,文本识别能够使得计算机对包含有字符内容的图像中的字符进行识别,文本识别后计算机即可对识别到的字符进行处理,提升了文本自动化处理的效率。
[0003]目前,可以采用行识别的方式实现文本识别,具体的,行识别方式首先可以检测出图像中单行文字所在的区域,之后将单行文字所在的区域切割提取,再采用行文字识别算法,对单行文字所在的区域中的字符进行识别。
[0004]但是,目前方案中,由于待识别图像经常是在复杂拍摄环境下拍摄得到的,则对待识别图像进行行识别的难度较高,进而降低了文本识别精度,另外,文本识别的模型在更新了生僻字后,反而会导致对这些生僻字的形近字的识别精度降低。

技术实现思路

[0005]本申请实施例提供一种文本识别方法、计算机可读存储介质、电子设备及计算机程序产品,以实现采用单字符识别方式提升文本识别精度的目的。
[0006]根据本申请的第一方面,公开了一种文本识别方法,包括:
[0007]获取包含字符内容的字符图像;
[0008]从所述字符图像中切分获得单字符图像;每个所述单字符图像包含一个字符;
[0009]将所述单字符图像输入第一文本识别模型,获得所述第一文本识别模型输出的每个单字符图像的第一识别结果,以及将所述单字符图像输入第二文本识别模型,获得所述第二文本识别模型输出的每个单字符图像的第二识别结果;所述第一文本识别模型为用于识别生僻字的模型,且所述第一文本识别模型根据生僻字库的更新不断进行更新;
[0010]针对每个所述单字符图像,若所对应的所述第一识别结果与所述第二识别结果相同,将所述第一识别结果或所述第二识别结果作为所述单字符图像的目标识别结果;
[0011]若所对应的所述第一识别结果与所述第二识别结果不相同,且所述第一识别结果指示所述单字符图像中的单字符为生僻字的情况下,则将所述第一识别结果作为所述单字符图像的目标识别结果。
[0012]根据本申请的第二方面,公开了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面中文本识别方法的步骤。
[0013]根据本申请的第三方面,公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有程序,所述程序被所述处理器执行时实现如第一方面中文本识别方法的步骤。
[0014]根据本申请的第四方面,公开了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如第一方面中文本识别方法的步骤。
[0015]本申请实施例中,采用了与行识别不同的单字符识别方式进行文本识别,相较于行识别方式,本申请可以通过采用单字符识别方式的第一文本识别模型和第二文本识别模型进行文本识别,整个过程省去了实现难度较高的行检测及切分环节,从而解决了复杂拍摄环境和拍摄不规范带来的识别精度下降问题。另外,第一文本识别模型具有识别生僻字的能力,在模型的上线部署时,可以同时部署第一文本识别模型和未更新生僻字的第二文本识别模型,并同时采用第一文本识别模型和第二文本识别模型分别对相同的输入内容进行文本识别,判断两个模型识别的内容是否存在差异,如果无差异,输出任一识别结果,如果有差异,则进一步判断识别内容是否属于生僻字,不是生僻字则输出第二文本识别模型的识别结果,属于生僻字的话,则输出第一文本识别模型的识别结果。从而本申请即可以利用第一文本识别模型的优势来准确识别生僻字,又可以利用第二文本识别模型来准确识别生僻字的形近字,从而解决了模型更新生僻字后导致对形近字的识别精度降低的问题。
附图说明
[0016]图1是本申请的一些实施例的一种文本识别方法的流程图;
[0017]图2是本申请的一些实施例的一种不同识别结果的比较逻辑示意图;
[0018]图3是本申请的一些实施例的一种文本识别整体流程示意图;
[0019]图4是本申请的一些实施例的一种文本识别模型的更新方法的流程图;
[0020]图5是本申请的一些实施例的一种具体的文本识别方法;
[0021]图6是本申请的一些实施例的一种模型结构的示意图;
[0022]图7是本申请的一些实施例的一种整图训练图像的示意图;
[0023]图8是本申请的一些实施例的一种单字符更新图像的示意图;
[0024]图9是本申请的一些实施例的文本识别装置的结构示意图;
[0025]图10是本申请的一些实施例的电子设备的框图。
具体实施方式
[0026]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
[0027]需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
[0028]近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(AI,Artificial Intelligence)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算
机视觉技术通常包括人脸识别、车辆路径规划、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM,simultaneous localization and mapping)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
[0029]本申请实施例主要应用在针对图像的文本识别领域,文字识别是指电子设备获取包含字符内容的图像,然后用字符识别方法将图像中的形状翻译成计算机文字的过程。如,对文本资料进行扫描获得图像文件,然后对图像文件进行分析处理,获取文字及版面信息。...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获取包含字符内容的字符图像;从所述字符图像中切分获得单字符图像;每个所述单字符图像包含一个字符;将所述单字符图像输入第一文本识别模型,获得所述第一文本识别模型输出的每个单字符图像的第一识别结果,以及将所述单字符图像输入第二文本识别模型,获得所述第二文本识别模型输出的每个单字符图像的第二识别结果;所述第一文本识别模型为用于识别生僻字的模型,且所述第一文本识别模型根据生僻字库的更新不断进行更新;针对每个所述单字符图像,若所对应的所述第一识别结果与所述第二识别结果相同,将所述第一识别结果或所述第二识别结果作为所述单字符图像的目标识别结果;若所对应的所述第一识别结果与所述第二识别结果不相同,且所述第一识别结果指示所述单字符图像中的单字符为生僻字的情况下,则将所述第一识别结果作为所述单字符图像的目标识别结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述单字符图像的第一识别结果与第二识别结果不相同,且所述第一识别结果指示所述单字符图像中的单字符不为生僻字的情况下,则将所述第二识别结果作为所述单字符图像的目标识别结果。3.根据权利要求1或2所述的方法,其特征在于,所述第一文本识别模型包括:特征提取层、仿射变换层和预测层;所述将所述单字符图像输入第一文本识别模型,获得所述第一文本识别模型输出的每个单字符图像的第一识别结果,包括:对所述单字符图像进行下采样,获得下采样特征;将所述单字符图像输入所述第一文本识别模型的特征提取层,获得所述单字符图像的单应矩阵特征;将所述单字符图像的单应矩阵特征,以及所述单字符图像的下采样特征输入所述仿射变换层,获得所述单字符图像的仿射变换矩阵特征;所述仿射变换矩阵特征用于表征所述单字符图像中字符区域的位置信息;将所述单字符图像的仿射变换矩阵特征输入所述预测层,获得所述单字符图像的第一识别结果。4.根据权利要求3所述的方法,其特征在于,所述特征提取层包括依次连接的四个2倍下采样层、两个全连接层;所述预测层包括依次连接的三个2倍下采样层、两个全连接层。5.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:许玉辉
申请(专利权)人:南京旷云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1