字符的识别方法、装置及计算机存储介质制造方法及图纸

技术编号:28376035 阅读:26 留言:0更新日期:2021-05-08 00:03
本发明专利技术公开了一种字符的识别方法,所述字符的识别方法包括以下步骤:在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量;根据所述二维偏移量调整目标神经网络模型在所述待识别图像上的采样点坐标;根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息。本发明专利技术还公开了一种字符的识别装置及计算机存储介质。本发明专利技术通过获取像素点的二维偏移量,根据二维偏移量调整卷积神经网络的采样点位置,避免采样点位置固定,卷积的感受野可更加集中在图像中的字符周围,根据调整后的采样点位置提取的图像特征更加准确,字符识别的准确度更高。

【技术实现步骤摘要】
字符的识别方法、装置及计算机存储介质
本专利技术涉及字符识别
,尤其涉及字符的识别方法、装置及计算机存储介质。
技术介绍
随着计算机图像视觉技术的发展,越来越多的场景采用视觉方案辅助或替代人工。字符识别技术已应用在众多行业或场景中,比如工业喷码、银行卡、身份证等。由于不同场景下的字符形态各异,字符背景更是千差万别,例如包装上的生产日期、芯片的编号、瓶体上的激光喷码等。基于传统特征提取方法难以胜任日益复杂的识别任务,基于深度学习的方法越来越受到业内的关注。然而,在基于深度学习的字符识别方法中,卷积神经网络的采样方式较为固定,导致提取得来的特征信息包含了太多除字符外的背景信息,特征信息的提取不太准确,字符识别的准确度较低。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种字符的识别方法、装置及计算机存储介质,旨在根据像素点的二维偏移量调整卷积神经网络的采样点位置,提高字符识别的准确度。为实现上述目的,本专利技术提供一种字符的识别方法,所述字符的识别方法包括以下步骤:在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量;根据所述二维偏移量调整目标神经网络模型在所述待识别图像上的采样点坐标;根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息。可选地,所述根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息的步骤包括:根据调整后的采样点坐标获取所述待识别图像的特征信息;将所述特征信息输入所述目标神经网络模型,以获取所述待识别图像中所述字符的字符信息。可选地,所述根据调整后的采样点坐标获取所述待识别图像的特征信息的步骤包括:采用注意力机制获取所述待识别图像中各个像素点的注意力权重,其中,所述注意力权重包括空间注意力权重和/或通道注意力权重;根据所述注意力权重以及调整后的采样点坐标确定所述待识别图像中的目标图像区域;获取所述目标图像区域的所述特征信息。可选地,所述根据所述注意力权重以及调整后的采样点坐标确定所述待识别图像中的目标图像区域的步骤包括:根据调整后的采样点坐标确定所述待识别图像中各个像素点的得分;根据各个像素点的得分以及像素点的注意力权重获取像素点的加权得分;根据所述加权得分确定所述待识别图像中的目标像素点,其中,所述目标图像区域包括所述目标像素点。可选地,所述在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量的步骤之前,还包括:获取多个第一预设图像;对所述多个第一预设图像中的字符尺寸进行聚类处理,得到多个类别的字符尺寸;将所述多个类别的字符尺寸作为锚框的尺寸;根据所述锚框的尺寸对预设神经网络模型进行训练,得到所述目标神经网络模型。可选地,所述根据所述锚框的尺寸对预设神经网络模型进行训练的步骤包括:按照所述锚框的尺寸对所述第一预设图像进行图像尺寸归一化;根据图像尺寸归一化后的第一预设图像对所述预设神经网络模型进行训练。可选地,所述根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息的步骤包括:根据调整后的采样点坐标获取所述待识别图像的特征信息;将所述特征信息输入所述目标神经网络模型,以得到编码后的特征信息;采用所述锚框的尺寸对编码后的特征信息进行解码处理,得到所述待识别图像中所述字符的字符信息。可选地,所述在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量的步骤之前,还包括:获取采集得到的原始图像;对所述原始图像进行预处理,得到所述待识别图像,其中,所述预处理包括图像尺寸归一化和/或像素值归一化。此外,为实现上述目的,本专利技术还提供一种字符的识别装置,所述字符的识别装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的字符的识别程序,所述字符的识别程序被所述处理器执行时实现如上所述中任一项所述的字符的识别方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机存储介质,所述计算机存储介质上存储有字符的识别程序,所述字符的识别程序被处理器执行时实现如上所述中任一项所述的字符的识别方法的步骤。本专利技术实施例提出的字符的识别方法、装置及计算机存储介质,在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量,根据所述二维偏移量调整目标神经网络模型在所述待识别图像上的采样点坐标,根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息。本专利技术通过获取像素点的二维偏移量,根据二维偏移量调整卷积神经网络的采样点位置,避免采样点位置固定,卷积的感受野可更加集中在图像中的字符周围,根据调整后的采样点位置提取的图像特征更加准确,字符识别的准确度更高。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的终端结构示意图;图2为本专利技术字符的识别方法的一实施例的流程示意图;图3为本专利技术字符的识别方法另一实施例的流程示意图;图4为本专利技术字符的识别方法再一实施例的流程示意图;图5为本专利技术目标神经网络模型的训练过程的流程示意图;图6为目标神经网络模型的测试过程以及实际应用过程的流程示意图;图7为本专利技术采用普通卷积时的采样点坐标位置的效果示意图;图8为本专利技术采用可变形卷积时的采样点坐标位置的效果示意图;图9为本专利技术注意力机制的网络结构的示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供一种解决方案,通过获取像素点的二维偏移量,根据二维偏移量调整卷积神经网络的采样点位置,避免采样点位置固定,卷积的感受野可更加集中在图像中的字符周围,根据调整后的采样点位置提取的图像特征更加准确,字符识别的准确度更高。如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境的终端结构示意图。本专利技术实施例终端为终端设备。如图1所示,该终端可以包括:处理器1001,例如CPU,通信总线1002,存储器1003。其中,通信总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图1所示,作为一种计算机存储介质的存储器1003中可以包括字符本文档来自技高网...

【技术保护点】
1.一种字符的识别方法,其特征在于,所述字符的识别方法包括以下步骤:/n在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量;/n根据所述二维偏移量调整目标神经网络模型在所述待识别图像上的采样点坐标;/n根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息。/n

【技术特征摘要】
1.一种字符的识别方法,其特征在于,所述字符的识别方法包括以下步骤:
在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量;
根据所述二维偏移量调整目标神经网络模型在所述待识别图像上的采样点坐标;
根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息。


2.如权利要求1所述的字符的识别方法,其特征在于,所述根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息的步骤包括:
根据调整后的采样点坐标获取所述待识别图像的特征信息;
将所述特征信息输入所述目标神经网络模型,以获取所述待识别图像中所述字符的字符信息。


3.如权利要求2所述的字符的识别方法,其特征在于,所述根据调整后的采样点坐标获取所述待识别图像的特征信息的步骤包括:
采用注意力机制获取所述待识别图像中各个像素点的注意力权重,其中,所述注意力权重包括空间注意力权重和/或通道注意力权重;
根据所述注意力权重以及调整后的采样点坐标确定所述待识别图像中的目标图像区域;
获取所述目标图像区域的所述特征信息。


4.如权利要求3所述的字符的识别方法,其特征在于,所述根据所述注意力权重以及调整后的采样点坐标确定所述待识别图像中的目标图像区域的步骤包括:
根据调整后的采样点坐标确定所述待识别图像中各个像素点的得分;
根据各个像素点的得分以及像素点的注意力权重获取像素点的加权得分;
根据所述加权得分确定所述待识别图像中的目标像素点,其中,所述目标图像区域包括所述目标像素点。


5.如权利要求1所述的字符的识别方法,其特征在于,所述在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量的步骤之前,还包括:
获取多个第一预...

【专利技术属性】
技术研发人员:江帆
申请(专利权)人:南京汇川图像视觉技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1