一种对图像的字符识别方法、装置、设备及介质制造方法及图纸

技术编号：31230099 阅读：10 留言：0更新日期：2021-12-08 10:00

本申请实施例提供了一种对图像的字符识别方法、装置、设备及介质，其中的方法可包括：获取待识别图像，并对待识别图像进行特征分析，得到特征矩阵，特征矩阵上包括多个特征值；对特征矩阵中各个特征值进行编码，得到特征值编码信息；基于特征值编码信息结合注意力算法识别待识别图像上包含的字符序列中的第一字符，并在预测得到第一字符后，对基于注意力算法得到的特征值编码信息对应的注意力图进行遮罩处理，得到遮罩处理后的注意力图；基于第一字符，从遮罩处理后的注意力图中预测出第二字符，以根据第一字符和第二字符得到对待识别图像的字符识别结果。采用本申请实施例能够更为准确地识别待识别图像中的字符。为准确地识别待识别图像中的字符。为准确地识别待识别图像中的字符。

全部详细技术资料下载

【技术实现步骤摘要】
一种对图像的字符识别方法、装置、设备及介质

[0001]本申请涉及计算机
，尤其涉及一种对图像的字符识别方法、装置、设备及介质。

技术介绍

[0002]在许多应用场景中均会涉及对字符的识别，这些场景包括证件识别场景、卡号识别场景、车牌识别场景以及票据识别场景等等，还有一些特殊的关于不规则字符序列识别场景，比如印章内容识别场景、曲形文字验证码识别场景等。其中，印章内容识别场景中，有效识别印章所包含的各个字符或各个字符所组成的字符序列，能够帮助判断出该印章的所属者，能够为合同或票据审核等场景提供便利；而诸如曲形文字验证码识别场景则可以自动为用户识别所需的文字验证码，方便用户快速进行注册、支付等场景下的验证处理。
[0003]目前，对各类图像进行文字识别的方法大多是基于OCR(Optical Character Recognition，光学字符识别)来进行的，但OCR识别有时候不够准确。

技术实现思路

[0004]本申请实施例提供一种对图像的字符识别方法、装置及设备，能够较为准确地识别图像中的字符。
[0005]一方面，本申请实施例提供一种对图像的字符识别方法，该方法包括：
[0006]获取待识别图像，并对所述待识别图像进行特征分析，得到特征矩阵，所述特征矩阵上包括多个特征值；
[0007]对所述特征矩阵中各个特征值进行编码，得到特征值编码信息，所述特征值编码信息用于表示各个特征值在所述特征矩阵中的位置信息和特征信息；
[0008]基于所述特征值编码信息结合注意...

【技术保护点】

【技术特征摘要】
1.一种对图像的字符识别方法，其特征在于，包括：获取待识别图像，并对所述待识别图像进行特征分析，得到特征矩阵，所述特征矩阵上包括多个特征值；对所述特征矩阵中各个特征值进行编码，得到特征值编码信息，所述特征值编码信息用于表示各个特征值在所述特征矩阵中的位置信息和特征信息；基于所述特征值编码信息结合注意力算法识别所述待识别图像上包含的字符序列中的第一字符，并在预测得到所述第一字符后，对基于注意力算法得到的所述特征值编码信息对应的注意力图进行遮罩处理，得到遮罩处理后的注意力图；基于所述第一字符，从所述遮罩处理后的注意力图中预测出第二字符，以根据所述第一字符和所述第二字符得到对所述待识别图像的字符识别结果。2.如权利要求1所述的方法，其特征在于，所述特征矩阵是通过训练优化后的特征提取网络对所述待识别图像进行识别后得到的；所述特征值编码信息是通过训练优化后的编码器对所述特征矩阵中各个特征值进行编码得到的；所述第一字符和所述第二字符是通过训练优化后的解码器对所述特征值编码信息进行解码后得到的，所述解码器包括解码模块和基于注意力算法的注意力模块。3.如权利要求1或2所述的方法，其特征在于，所述基于所述特征值编码信息结合注意力算法识别所述待识别图像上包含的字符序列中的第一字符，并在预测得到所述第一字符后，对基于注意力算法得到的所述特征值编码信息对应的注意力图进行遮罩处理，得到遮罩处理后的注意力图，包括：通过训练优化后得到的解码器中的注意力模块从所述特征值编码信息对应的注意力图中确定第一个字符所对应的注意力区域；通过训练优化后得到的解码器中的解码模块对所述注意力图中所述注意力区域中的值进行运算，得到所述待识别图像上包含的字符序列中的第一字符；将所述注意力图中所述注意力区域中的值设置为指定值，得到遮罩处理后的注意力图；所述基于所述第一字符，从所述遮罩处理后的注意力图中预测出第二字符，包括：通过所述注意力模块从遮罩处理后的注意力图确定出第二字符对应的注意力区域；通过所述解码模块对所述第一字符和确定出的第二字符对应的注意力区域中的值进行运算，得到第二字符。4.如权利要求1所述的方法，其特征在于，所述获取待识别图像之前，还包括：获取图像，并对获取的图像进行字符区域识别处理，根据识别处理结果确定待识别字符区域；根据所述待识别字符区域得到初始待识别图像；按照图像调整规则对所述初始待识别图像进行调整，得到所述待识别图像；其中，对所述初始待识别图像进行调整包括：将所述初始待识别图像中字符序列所在的位置区域调整至指定的目标图像位置区域，和将所述初始待识别图像的尺寸调整为目标尺寸中的任意一个或者两个的组合。5.如权利要求4所述的方法，其特征在于，所述初始待识别图像是通过区域检测模型来
识别的；所述区域检测模型是通过监督学习的方式进行训练得到的；其中，在对所述区域检测模型进行训练时所采用的样本数据集合中包括：真实数据集合、扩充数据集合；所述真实数据集合中包括：采集得到的包括字符序列的训练图像，所述扩充数据集合中包括：对所述采集到的训练图像进行调整处理后得到的扩充图像，其中，对所述采集到的训练图像进行调整处理包括：旋转处理、亮度变化处理、对比度变化处理、增加图像噪声处理、图像裁剪处理中的任意一种或多种。6.如权利要求1所述的方法，其特征在于，所述待识别图像包含的字符序列中的各个字符是通过字符检测模型来识别的；所述字符检测模型是通过监督学习的方式进行训练得到的；其中，在对所述字符检测模型进行训练时所采用的训练样本集中包括：样本图像集合、扩充图像集合；所述扩充图像集合包括：第一图像集合、第二图像集合中的任意一个或者两者的组合；所述第一图像集合中的第一图像是通过对搜集到的水平字符串进行曲形化处理后得到的，所述第二图像集合中的第二图像是通过从字符集合中提取的多个字符进行曲形渲染得到的。7.如权利要求6所述的方法，其特征在于，所述第一图像是通过曲形化处理函数对n个第一控制点和n个第二控制点进行计算得到的，所述n个第一控制点是从所述水平字符串的边缘采集确定的，所述n个第二控制点是根据所述n个第一控制点在目标函数曲线中确定的；n为大于零...

【专利技术属性】
技术研发人员：郑岩，
申请(专利权)人：腾讯云计算北京有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人