自然场景文字识别方法、系统、设备及存储介质技术方案

技术编号:37983425 阅读:17 留言:0更新日期:2023-06-30 09:58
本发明专利技术公开了一种自然场景文字识别方法、系统、设备及存储介质,它们是一一对应的方案,方案中:将图像编码到向量空间,从而被赋予局部和全局多粒度语义,并聚合得到全局向量,再并行生成不同时间步通道注意力图,从而解码出不同时间步的字符信息,由于采用向量到序列的解码方式,不仅可以提升识别速度,同时,由于不同字符在通道空间中共享一些特征表达(例如注意力图被较强地激活),但一些具有区分力特征的通道权重也存在一定差异,因此,可以确保全局向量能够在低质量注意力图的情况下,也能生成鲁棒的字符特征表达(例如缺少对共享通道特征的关注不会影响区分力通道特征的表达),因而,本发明专利技术提供的方案可以准确的识别自然场景的文字。的文字。的文字。

【技术实现步骤摘要】
自然场景文字识别方法、系统、设备及存储介质


[0001]本专利技术涉及自然场景文字识别
,尤其涉及一种自然场景文字识别方法、系统、设备及存储介质。

技术介绍

[0002]自然场景文字识别是一种通用的文字识别技术,已成为近年来计算机视觉与文档分析领域的热点研究方向,并且被广泛应用于自动驾驶,车牌识别,帮助视障人士等领域。该任务的目标是将图像中的文字内容转换成可编辑的文字。
[0003]由于自然场景中的文字具有分辨率低下、背景复杂、易受噪声干扰等特点,导致传统的文字识别技术无法应用到自然场景中。因此,自然场景中的文字识别技术具有重大的研究意义。
[0004]随着近年来深度学习技术在计算机视觉领域的发展,近期的场景文字识别方法达到了比较好的效果。这些方法都使用了序列到序列的解码机制,如图1所示,文字识别过程中,首先将输入图像编码到序列信号,此部分通过CNN(卷积神经网络)实现;然后再通过对齐结构解码出序列的字符信息,此部分通过序列到序列的解码器实现,它可以是基于注意力机制的解码器,也可以是基于CTC(连接时序分类)机制的解码器,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自然场景文字识别方法,其特征在于,包括:步骤1、将待识别的自然场景图像转换为序列信息,再通过多层Transformer模块提取出多粒度的视觉特征向量;其中,Transformer模块为变压器模块;步骤2、对所述多粒度的视觉特征向量进行聚合,获得全局向量;步骤3、利用所述全局向量并行生成每个时间步的通道注意力图,并结合所述全局向量,获得每个时间步的字符特征向量,利用每个时间步的字符特征向量预测出每个时间步的字符。2.根据权利要求1所述的一种自然场景文字识别方法,其特征在于,利用所述全局向量并行生成每个时间步的通道注意力图包括:对每个时间步,生成相应的时间嵌入信息,通过第一全连接层为全局向量引入每个时间步的时间嵌入信息,再依次通过第二全连接层、激活函数与归一化层得到每个时间步的通道注意力图。3.根据权利要求1或2所述的一种自然场景文字识别方法,其特征在于,生成单个时间步的通道注意力图的方式表示为:;其中,表示第一全连接层,表示第二全连接层,表示时间步t对应的时间嵌入信息,表示时间步t的通道注意力图,V表示全局向量;表示激活函数,为归一化指数函数,是由归一化层执行的归一化操作。4.根据权利要求1所述的一种自然场景文字识别方法,其特征在于,所述步骤1通过编码器实现,步骤3通过基于向量到序列的解码器实现,编码器与基于向量到序列的解码器的内部参数均预先利用损失函数进行优化,损失函数表示为:;其中,为预测出的时间步t的字符所属类别,为时间步t的字符的真实标签,M为时间步总数,等同于最大字符数;L为损失函数。5.一种自然场景文字识别系统,其特征在于,包括:编码器,用于将待识别的自然场景图像转换为序列信息,再通过多层Transformer模块提取出多粒度的视觉特征向...

【专利技术属性】
技术研发人员:张勇东王裕鑫谢洪涛
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1