图像识别方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:22102408 阅读:23 留言:0更新日期:2019-09-14 03:30
本发明专利技术公开了一种图像识别方法、装置、计算机设备及计算机可读存储介质,属于图像技术领域。本发明专利技术通过对待识别图像进行特征提取,生成第一特征图,基于该第一特征图中子图的特征点在该第一特征图中的重要程度,对该第一特征图进行解码,在解码过程中,当任一子图与前一子图中重要程度最大的特征点相对于该第一特征图的位置相同时,则可以确定该图像中包含的字符等有效信息均被解码,该计算机设备终止解码过程,根据获取的解码结果输出该图像中包含的字符等有效信息。这种图像识别方式,可以在解码过程中判断图像中的有效信息是否解码完成,从而提前终止解码过程,以减小图像识别过程中的运算量,提高图像识别效率。

Image Recognition Method, Device, Computer Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
图像识别方法、装置、计算机设备及计算机可读存储介质
本专利技术涉及图像
,特别涉及一种图像识别方法、装置、计算机设备及计算机可读存储介质。
技术介绍
随着机器学习技术的发展,计算机设备可以基于深度神经网络对图像中包含的字符等信息进行识别。目前,在图像识别任务中,通常采用基于深度神经网络构建的图像识别模型,对待识别的图像进行特征提取,获取图像的特征图,对特征图进行解码,以得到图像中包含的字符等信息。但是在图像中,字符等有效信息通常只占据图像的一部分区域,在有效信息以外还会出现较大的空白区域,在上述图像识别方式中,图像识别模型需对图像的每一区域都进行解码,对于不包含字符等有效信息的区域进行解码,会导致图像识别的运算量增大,图像识别的耗时增长,识别效率降低。
技术实现思路
本专利技术实施例提供了一种图像识别方法、装置、计算机设备及计算机可读存储介质,可以解决相关技术中图像识别效率低的问题。该技术方案如下:一方面,提供了一种图像识别方法,该方法包括:获取待识别的图像;将该图像输入图像识别模型,由该图像识别模型对该图像进行特征提取,得到第一特征图,基于该第一特征图中特征点在该第一特征图中的重要程度,对该第一特征图进行解码,当在解码过程中检测到该第一特征图中的任一子图和前一子图中重要程度最大的特征点在该第一特征图中的位置相同时,结束解码,输出解码得到的特征向量;对该图像识别模型输出的特征向量进行解码,得到该图像所包含的字符信息。一方面,提供了一种图像识别装置,该装置包括:获取模块,用于获取待识别的图像;输出模块,将该图像输入图像识别模型,由该图像识别模型对该图像进行特征提取,得到第一特征图,基于该第一特征图中特征点在该第一特征图中的重要程度,对该第一特征图进行解码,当在解码过程中检测到该第一特征图中的任一子图和前一子图中重要程度最大的特征点在该第一特征图中的位置相同时,结束解码,输出解码得到的特征向量;解码模块,用于对该图像识别模型输出的特征向量进行解码,得到该图像所包含的字符信息。一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行以实现该图像识别方法所执行的操作。一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现该图像识别方法所执行的操作。本专利技术实施例提供的技术方案,通过对待识别图像进行特征提取,生成第一特征图,基于该第一特征图中子图的特征点在该第一特征图中的重要程度,对该第一特征图进行解码,在解码过程中,当任一子图与前一子图中重要程度最大的特征点相对于该第一特征图的位置相同时,则可以确定该图像中包含的字符等有效信息均被解码,该计算机设备终止解码过程,根据获取的解码结果输出该图像中包含的字符等有效信息。这种图像识别方式,可以在解码过程中判断图像中的有效信息是否解码完成,从而提前终止解码过程,以减小图像识别过程中的运算量,提高图像识别效率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种图像识别系统的结构框图;图2是本专利技术实施例提供的一种图像识别方法的流程图;图3是本专利技术实施例提供的一种长短时记忆网络的结构示意图;图4是本专利技术实施例提供的一种编码器的结构示意图;图5是本专利技术实施例提供的一种编码嵌入方法的示意图;图6是本专利技术实施例提供的一种解码器的结构示意图;图7是本专利技术实施例提供的一种截断解码过程的示意图;图8是本专利技术实施例提供的一种图像识别结果的示意图;图9是本专利技术实施例提供的一种构造的样本图像示意图;图10是本专利技术实施例提供的一种图像识别装置的结构示意图;图11是本专利技术实施例提供的一种终端的结构示意图;图12是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。为了便于理解本专利技术实施例的技术过程,下面对本专利技术实施例所涉及的一些名词进行解释:注意力机制(AttentionMechanism):是利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。注意力机制被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。综上,注意力机制主要有两个方面:一是决定需要关注输入的哪部分;二是分配有限的信息处理资源给重要的部分。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务更关键的信息。特征图:是用于指示图像特征的数字矩阵。在图像特征提取过程中,计算机设备可以通过卷积神经网络中的至少一个卷积层对图像进行卷积运算,一个卷积层可以输出一个卷积运算结果,将该卷积运算结果作为该图像的特征图。在本专利技术实施例中,将该卷积神经网络中最后一个卷积层输出的特征图作为该图像的第一特征图。子图:由第一特征图中的一组特征点组成。在该第一特征图的解码过程中,该计算机设备可以依次扫描该第一特征图的各个区域,将每个区域中包含的一组特征点作为该第一特征图的一个子图,根据扫描顺序,可以将相邻两次扫描得到的子图分别称为子图以及该子图的前一子图。图1是本专利技术实施例提供的一种图像识别系统的结构框图。该图像识别系统100包括:终端110和图像识别平台140。终端110通过无线网络或有线网络与图像识别平台110相连。终端110可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有支持图像识别的应用程序。该应用程序可以是字符识别类应用程序等。示意性的,终端110是用户使用的终端,终端110中运行的应用程序内登录有用户账号。终端110通过无线网络或有线网络与图像识别平台140相连。图像识别平台140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。图像识别平台140用于为支持图像识别的应用程序提供后台服务。可选地,图像识别平台140承担主要识别工作,终端110承担次要识别工作;或者,图像识别平台140承担次要识别工作,终端110承担主要识别工作;或者,图像识别平台140或终端110分别可以单独承担识别工作。可选地,图像识别平台140包括:接入服务器、图像识别服务器和数据库。接入服务器用于为终端110提供接入服务。图像识别服务器用于提供图像识别有关的后台服务,该图像识别服务器可以搭载图形处理器,支持图形处理器多线程并行计算。图像识别服务器可以是一台或多台。当图像识别服务器是多台时,存在至少两台图像识别服本文档来自技高网...

【技术保护点】
1.一种图像识别方法,其特征在于,所述方法包括:获取待识别的图像;将所述图像输入图像识别模型,由所述图像识别模型对所述图像进行特征提取,得到第一特征图,基于所述第一特征图中特征点在所述第一特征图中的重要程度,对所述第一特征图进行解码,当在解码过程中检测到所述第一特征图中的任一子图和前一子图中重要程度最大的特征点在所述第一特征图中的位置相同时,结束解码,输出解码得到的特征向量;对所述图像识别模型输出的特征向量进行解码,得到所述图像所包含的字符信息。

【技术特征摘要】
1.一种图像识别方法,其特征在于,所述方法包括:获取待识别的图像;将所述图像输入图像识别模型,由所述图像识别模型对所述图像进行特征提取,得到第一特征图,基于所述第一特征图中特征点在所述第一特征图中的重要程度,对所述第一特征图进行解码,当在解码过程中检测到所述第一特征图中的任一子图和前一子图中重要程度最大的特征点在所述第一特征图中的位置相同时,结束解码,输出解码得到的特征向量;对所述图像识别模型输出的特征向量进行解码,得到所述图像所包含的字符信息。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征图中特征点在所述第一特征图中的重要程度,对所述第一特征图进行解码,包括:获取所述第一特征图的多个第一序列,每个第一序列用于表示所述第一特征图中一个子图与扫描顺序位于所述子图前后的子图的特征信息;基于所述多个第一序列获取多个注意力矩阵,一个注意力矩阵用于表示对应的子图对于所述第一特征图的重要程度;基于所述多个注意力矩阵,对所述第一特征图进行解码。3.根据权利要求2所述的方法,其特征在于,所述获取所述第一特征图的多个第一序列,包括:将所述第一特征图中的各个子图依次输入编码器,所述编码器包括至少一个第一隐层单元;对于每个第一隐层单元,所述第一隐层单元对接收到的所述第一特征图的一个子图和上一个第一隐层单元输出的第一序列进行加权运算,得到一个第一序列。4.根据权利要求2所述的方法,其特征在于,所述基于所述多个第一序列获取多个注意力矩阵,包括:将全部第一序列输入解码器,所述解码器包括至少一个第二隐层单元;对于每一个第二隐层单元,所述第二隐层单元对接收的上一个第二隐层单元输出的一个第二序列与所述全部第一序列进行相似度比对,得到一个第二序列,所述第二序列中的一组元素用于指示所述上一个第二隐层单元的一个第二序列与一个第一序列的相似度,所述相似度越大,用于表示所述相似度的一组元素的数值越大;将多个第二序列分别与所述全部第一序列进行加权运算,生成多个注意力矩阵。5.根据权利要求2所述的方法,其特征在于,所述当在解码过程中检测到所述第一特征图中的任一子图和前一子图中重要程度最大的特征点在所述第一特征图中的位置相同时,结束解码,包括:获取所述子图的注意力矩阵中元素最大值相对于所述第一特征图的位置;当任一子图的注意力矩阵与前一子图的注意力矩阵中的元素最大值相对于所述第一特征图的位置相同时,则确定所述图像解码完成,结束解码。6.根据权利要求1所述的方法,其特征在于,所述对所述图像识别模型输出的特征向量进行解码,得到所述图像所包含的字符信息,包括:将所述多个特征向量分别与标准向量集合进行相似度比对,确定与各个特征向量相似度最大的多个标准向量,将所述多个标准向量所指示的字符作为所述图像包含的字符。7.一种图像识别装置,其特征在于,所述装置包括:获取模块,用于获取待识别的图像;输出模块,用于...

【专利技术属性】
技术研发人员:胡益清姜德强刘银松叶朝萍任博
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1