文本识别方法及装置、电子设备和存储介质制造方法及图纸

技术编号:25891186 阅读:24 留言:0更新日期:2020-10-09 23:33
本公开涉及一种文本识别方法及装置、电子设备和存储介质。该方法包括:对待检测图像进行特征提取处理,获得多个语义向量,其中,所述多个语义向量与所述待检测图像中的文本序列的多个字符对应;通过卷积神经网络对多个语义向量依次进行识别处理,得到文本序列的识别结果。根据本公开的实施例的文本识别方法,可在待检测图像中提取语义向量,并通过卷积神经网络依次处理语义向量,确定文本序列的识别结果,可提高文本识别的精确度。

【技术实现步骤摘要】
文本识别方法及装置、电子设备和存储介质
本公开涉及计算机
,尤其涉及一种文本识别方法及装置、电子设备和存储介质。
技术介绍
图像中的文本识别是图像识别和文本识别技术中的重要问题。精确的文本识别能够用于多个领域,例如图片理解,自动翻译,盲人引导,机器人导航等。在相关技术中,图像中的文本识别具有多种问题,图像中复杂多样背景、低分辨率、不同的字体、不同的光照条件、不同大小尺度、不同倾斜方向、模糊等因素,都使得图像中的文本识别更加复杂和困难。
技术实现思路
本公开提出了一种文本识别方法及装置、电子设备和存储介质。根据本公开的一方面,提供了一种文本识别方法,包括:对待检测图像进行特征提取处理,获得多个语义向量,其中,所述多个语义向量与所述待检测图像中的文本序列的多个字符对应;通过卷积神经网络对所述多个语义向量依次进行识别处理,得到所述文本序列的识别结果。根据本公开的实施例的文本识别方法,可在待检测图像中提取语义向量,并通过卷积神经网络依次处理语义向量,确定文本序列的识别结果,可提高文本识别的精确度。在一些实施例中,所述通过卷积神经网络对所述多个语义向量依次进行识别处理,得到所述文本序列的识别结果,包括:通过卷积神经网络对目标语义向量的先验信息进行处理,获得所述目标语义向量的权值参数,其中,所述多个语义向量包括所述目标语义向量;根据所述权值参数和所述目标语义向量,确定与所述目标语义向量对应的文本识别结果。通过这种方式,可使用根据先验信息获得的权值参数对目标语义向量进行加权,可在对目标语义向量的识别过程中参考先验信息,提高对目标语义向量的识别精度。在一些实施例中,所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果和/或起始符。在一些实施例中,所述通过卷积神经网络对目标语义向量的先验信息进行处理,获得所述目标语义向量的权值参数,包括:通过所述卷积神经网络中的至少一个第一卷积层对所述目标语义向量进行编码处理,获得所述目标语义向量的第一向量;通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理,获得与所述先验信息对应的第二向量;基于所述第一向量和所述第二向量,确定所述权值参数。通过这种方式,可通过卷积神经网络获取与先验信息对应的第二向量,进一步地,可获取权值参数,使权值参数中包含先验信息,为识别目标语义向量提供依据。在一些实施例中,通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理,获得与所述先验信息对应的第二向量,包括:响应于所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果,对所述前一语义向量对应的文本识别结果进行词嵌入处理,获得与先验信息对应的特征向量;对所述特征向量进行编码处理,得到所述第二向量。通过这种方式,可使用卷积神经网络根据前一字符的识别结果,对当前目标语义向量对应的字符进行预测,避免了不可控的长依赖问题,提高了识别的准确率。在一些实施例中,通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理,获得与所述先验信息对应的第二向量,包括:对所述先验信息中的起始符对应的初始向量进行编码处理,得到所述第二向量。在一些实施例中,所述根据所述权值参数和所述目标语义向量,确定与所述目标语义向量对应的文本识别结果,包括:基于所述权值参数和所述目标语义向量,获得与所述目标语义向量对应的注意力分布向量;通过所述卷积神经网络中的至少一个反卷积层对根据所述注意力分布向量进行解码处理,确定与所述目标语义向量对应的文本识别结果。在一些实施例中,所述对待检测图像进行特征提取处理,获得多个语义向量,包括:对所述待检测图像进行特征提取,获得特征信息;对所述特征信息进行下采样处理,得到所述多个语义向量。根据本公开的另一方面,提供了一种文本识别装置,包括:提取模块,用于对待检测图像进行特征提取处理,获得多个语义向量,其中,所述多个语义向量与所述待检测图像中的文本序列的多个字符对应;识别模块,用于通过卷积神经网络对所述多个语义向量依次进行识别处理,得到所述文本序列的识别结果。在一些实施例中,所述识别模块被进一步配置为:通过卷积神经网络对目标语义向量的先验信息进行处理,获得所述目标语义向量的权值参数,其中,所述多个语义向量包括所述目标语义向量;根据所述权值参数和所述目标语义向量,确定与所述目标语义向量对应的文本识别结果。在一些实施例中,所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果和/或起始符。在一些实施例中,所述识别模块被进一步配置为:通过所述卷积神经网络中的至少一个第一卷积层对所述目标语义向量进行编码处理,获得所述目标语义向量的第一向量;通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理,获得与所述先验信息对应的第二向量;基于所述第一向量和所述第二向量,确定所述权值参数。在一些实施例中,所述识别模块被进一步配置为:响应于所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果,对所述前一语义向量对应的文本识别结果进行词嵌入处理,获得与先验信息对应的特征向量;对所述特征向量进行编码处理,得到所述第二向量。在一些实施例中,所述识别模块被进一步配置为:对所述先验信息中的起始符对应的初始向量进行编码处理,得到所述第二向量。在一些实施例中,所述识别模块被进一步配置为:基于所述权值参数和所述目标语义向量,获得与所述目标语义向量对应的注意力分布向量;通过所述卷积神经网络中的至少一个反卷积层对所述注意力分布向量进行解码处理,确定与所述目标语义向量对应的文本识别结果。在一些实施例中,所述提取模块被进一步配置为:对所述待检测图像进行特征提取,获得特征信息;对所述特征信息进行下采样处理,得到所述多个语义向量。根据本公开的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:调用所述存储器中存储的指令,以执行上述图像处理方法。根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述图像处理方法。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。图1示出根据本公开实施例的文本识别方法的流程图;图2示出本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n对待检测图像进行特征提取处理,获得多个语义向量,其中,所述多个语义向量与所述待检测图像中的文本序列的多个字符对应;/n通过卷积神经网络对所述多个语义向量依次进行识别处理,得到所述文本序列的识别结果。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
对待检测图像进行特征提取处理,获得多个语义向量,其中,所述多个语义向量与所述待检测图像中的文本序列的多个字符对应;
通过卷积神经网络对所述多个语义向量依次进行识别处理,得到所述文本序列的识别结果。


2.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络对所述多个语义向量依次进行识别处理,得到所述文本序列的识别结果,包括:
通过卷积神经网络对目标语义向量的先验信息进行处理,获得所述目标语义向量的权值参数,其中,所述多个语义向量包括所述目标语义向量;
根据所述权值参数和所述目标语义向量,确定与所述目标语义向量对应的文本识别结果。


3.根据权利要求2所述的方法,其特征在于,所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果和/或起始符。


4.根据权利要求2或3所述的方法,其特征在于,所述通过卷积神经网络对目标语义向量的先验信息进行处理,获得所述目标语义向量的权值参数,包括:
通过所述卷积神经网络中的至少一个第一卷积层对所述目标语义向量进行编码处理,获得所述目标语义向量的第一向量;
通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理,获得与所述先验信息对应的第二向量;
基于所述第一向量和所述第二向量,确定所述权值参数。


5.根据权利要求4所述的方法,其特征在于,所述通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理,获得与所述先验信息对应的第二向量,包括:
响应于所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果,对所述前一语义向量对应的文本...

【专利技术属性】
技术研发人员:刘学博
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1