【技术实现步骤摘要】
图像识别方法、装置、设备、介质和程序产品
[0001]本申请一般涉及计算机
,具体涉及图像识别
,尤其涉及一种图像识别方法
、
装置
、
设备
、
介质和程序产品
。
技术介绍
[0002]OCR(optical character recognition
,光学字符识别
)
传统上指对输入扫描文档图像进行分析处理,识别出图像中文字的信息,现在也用于被用于对自然场景文字的识别
。
[0003]目前主流的
OCR
识别模型主要是基于卷积神经网络
(convolutional neural network
,
CNN)
来提取图像的特征,但是,现有的
CNN
的网络结构会对特征图的尺寸造成了严重的限制,导致提取到的特征图容易丢失有价值的信息,从而影响了文字识别的准确性
。
技术实现思路
[0004]鉴于现有技术中的上述缺陷或不足,期望提 ...
【技术保护点】
【技术特征摘要】
1.
一种图像识别方法,其特征在于,包括:获取待识别图像,利用特征提取网络对所述待识别图像进行特征提取,得到所述待识别图像的第一特征图;所述第一特征图包含多个初始识别字符的特征,所述第一特征图的高度大于1;利用所述特征提取网络对所述待识别图像的第一特征图进行自注意力分配,得到所述待识别图像的第二特征图;利用解码网络对所述待识别图像的第二特征图进行解码处理,得到所述待识别图像的至少一个字符组;所述字符组包括所述多个初始识别字符中具有关联关系的字符;基于所述待识别图像的至少一个字符组,确定所述待识别图像的文本识别结果
。2.
根据权利要求1所述的图像识别方法,其特征在于,所述利用特征提取网络对所述待识别图像进行特征提取,得到所述待识别图像的第一特征图,包括:利用所述特征提取网络,对所述待识别图像进行尺寸变换处理得到预处理图像,并对所述预处理图像按照预设降采样倍数进行降采样处理,得到所述待识别图像的所述第一特征图;其中,所述预设降采样倍数包括宽度降采样倍数和高度降采样倍数;所述预处理图像的高度与所述高度降采样倍数的比值大于
1。3.
根据权利要求1或2所述的图像识别方法,其特征在于,所述利用所述特征提取网络对所述待识别图像的第一特征图进行自注意力分配,得到所述待识别图像的第二特征图,包括:利用所述特征提取网络,对所述待识别图像的第一特征图中属于不同通道的特征值进行拼接处理,得到所述待识别图像的序列矩阵;对所述序列矩阵中的
N
个序列分别进行位置编码处理,得到位置序列矩阵;所述
N
个序列对应
N
个维度的特征;对所述位置序列矩阵进行自注意力计算,得到所述待识别图像的所述第二特征图
。4.
根据权利要求1‑3任一项所述的图像识别方法,其特征在于,所述利用解码网络对所述待识别图像的第二特征图进行解码处理,得到所述待识别图像的至少一个字符组,包括:基于约束条件对所述待识别图像的第二特征图进行字符组合,确定所述待识别图像的至少一个字符组;其中,所述约束条件包括以下的至少一项:生成所述字符组时禁止跳过非空字符
、
所述字符组的起始字符为所述初始识别字符中的前两个字符中的任意一个
、
所述字符组的结束字符为所述初始识别字符中的后两个字符中的任意一个
、
根据预设的字符搜索顺序生成所述字符组
。5.
根据权利要求1‑4任一项所述的图像识别方法,其特征在于,所述特征提取网络和所述解码网络的训练过程包括:获取训练样本集,所述训练样本集中包含多个样本图像,所述样本图像中包含文本;利用初始特征提取网络对所述样本图像进行降采样处理,得到所述样本图像的初始识别字符的特征;利用所述初始特征提取网络对所述样本图像的初始识别字符的特征进行自注意力分配,并将注意力分配后的特征输入初始解码网络,得到所述样本图像的至少一个字符组;
将注意力分配后的特征输入注意力网络,得到所述样本图像的每一初始识别字符的预测注意力值;将注意力分配后的特征输入聚合交叉熵
ACE
网络进行分布概率预测,得到所述样本图像的每一初始识别字符出现的次数,并基于所述次数确定所述样本图像的所述多个初始识别字符的预测概率分布;根据所述样本图像的至少一个字符组的预测概率值
、
所述预测注意力值以及所述预测概率分布,以损失函数最小为目的,对所述初始特征提取网络和所述初始解码网络进行迭代训练,得到所述特征提取网络和所述解码网...
【专利技术属性】
技术研发人员:谷枫,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。