一种场景文字识别方法、装置、存储介质及终端制造方法及图纸

技术编号:23853731 阅读:31 留言:0更新日期:2020-04-18 09:59
本发明专利技术公开了一种场景文字识别方法、装置、存储介质及终端,所述方法包括:获取目标场景文字图片;将所述目标场景文字图片输入预设主干网络模型中生成特征图;将所述目标场景文字图片输入预设字符锚定池化模型中,获取所述特征图对应的字符特征序列;将所述字符特征序列输入预设编解码模型中生成文字。因此,采用本申请实施例,可以提高场景文字识别的准确率。

A method, device, storage medium and terminal of scene character recognition

【技术实现步骤摘要】
一种场景文字识别方法、装置、存储介质及终端
本专利技术涉及计算机
,特别涉及一种场景文字识别方法、装置、存储介质及终端。
技术介绍
场景文字识别技术利用计算机自动识别自然场景下的文字,该技术可以广泛应用于证件识别、即时翻译、机器人导航、自动驾驶等领域。现有的场景文字识别方法大多利用基于卷积神经网络(convolutionalneuralnetwork,CNN)和递归神经网络(recurrentneuralnetwork,RNN)相结合的技术,首先利用CNN从图片中提取特征,然后利用RNN进行特征解码,翻译得到图片中的场景文字。由于实际场景文字存在形状不规则特点,因此利用这种识别方法识别后的结果和实际结果存在误差,从而降低了场景文字的识别准确率。
技术实现思路
本申请实施例提供了一种场景文字识别方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。第一方面,本申请实施例提供了一种场景文字识别方法,所述方法包括:获取目标场景文字图片;将所述目标场景文字图片输入预设主干网络模型中生成特征图;将所述目标场景文字图片输入预设字符锚定池化模型中,获取所述特征图对应的字符特征序列;将所述字符特征序列输入预设编解码模型中生成文字。可选的,所述将所述目标场景文字图片输入预设字符锚定池化模型中,获取所述特征图对应的字符特征序列,包括:当接收到目标场景文字图片时,获取预设字符锚定池化模型中字符锚定模块和锚定池模块;将所述目标场景文字图片输入所述字符锚定模块中生成字符锚定线;基于所述锚定池模块和所述字符锚定线获取所述特征图对应的字符特征序列。可选的,所述获取目标场景文字图片之前,还包括:创建主干网络模型、字符锚定池化模型和编解码模型;采集合成的场景文字图片和真实场景文字图片作为训练样本;将所述训练样本输入所述主干网络模型、字符锚定池化模型和编解码模型中进行训练生成训练后的主干网络模型、字符锚定池化模型和编解码模型。将所述训练后的主干网络模型、字符锚定池化模型和编解码模型作为预设主干网络模型、预设字符锚定池化模型和预设编解码模型。可选的,所述特征图的提取方式至少包括最邻近值插值、双线性插值、三次内插法中的一种方式。可选的,所述采集合成的场景文字图片中,所述场景文字图片由python的pygame进行渲染,所述场景文字图片中文字的字体使用google公开的字体库。第二方面,本申请实施例提供了一种场景文字识别装置,所述装置包括:图片获取模块,用于获取目标场景文字图片;特征图生成模块,用于将所述目标场景文字图片输入预设主干网络模型中生成特征图;字符特征序列获取模块,用于将所述目标场景文字图片输入预设字符锚定池化模型中,获取所述特征图对应的字符特征序列;文字生成模块,用于将所述字符特征序列输入预设编解码模型中生成文字。可选的,所述字符特征序列获取模块,包括:模块获取单元,用于当接收到目标场景文字图片时,获取预设字符锚定池化模型中字符锚定模块和锚定池模块;字符锚定线生成单元,用于将所述目标场景文字图片输入所述字符锚定模块中生成字符锚定线;字符特征序列生成单元,用于基于所述锚定池模块和所述字符锚定线获取所述特征图对应的字符特征序列。可选的,所述装置还包括:模型创建模块,用于创建主干网络模型、字符锚定池化模型和编解码模型;样本采集模块,用于采集合成的场景文字图片和真实场景文字图片作为训练样本;模型生成模块,用于将所述训练样本输入所述主干网络模型、字符锚定池化模型和编解码模型中进行训练生成训练后的主干网络模型、字符锚定池化模型和编解码模型。将所述训练后的主干网络模型、字符锚定池化模型和编解码模型作为预设主干网络模型、预设字符锚定池化模型和预设编解码模型。第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。本申请实施例提供的技术方案可以包括以下有益效果:在本申请实施例中,用户终端首先获取目标场景文字图片,将所述目标场景文字图片输入预设主干网络模型中生成特征图,然后将所述目标场景文字图片输入预设字符锚定池化模型中,获取所述特征图对应的字符特征序列,最后将所述字符特征序列输入预设编解码模型中生成文字。在场景文字识别中,由于使用了预设字符锚定池化模型中的字符锚定模块和锚定池模块对获取的目标场景文字图片进行了处理,从而提高了文本识别的准确率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是本申请实施例提供的一种场景文字识别方法的流程示意图;图2是本申请实施例提供的另一种场景文字识别方法的流程示意图;图3是本申请实施例提供的一种主干网络特征提取的流程示意图;图4是本申请实施例提供的一种提取二维的特征序列的流程示意图;图5是本申请实施例提供的对二维的特征序列进行编解码的流程示意图;图6是本申请实施例提供的场景文字识别过程的过程示意图;图7是本申请实施例提供的一种场景文字识别装置的结构示意图;图8是本申请实施例提供的一种字符特征序列获取模块的结构示意图;图9是本申请实施例提供的另一种场景文字识别装置的结构示意图;图10是本申请实施例提供的一种终端的结构示意图。具体实施方式以下描述和附图充分地示出本专利技术的具体实施方案,以使本领域的技术人员能够实践它们。应当明确,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。此外,在本专利技术的描述中,除非另有说明,“多个”是指两个或两个以上。本文档来自技高网...

【技术保护点】
1.一种场景文字识别方法,其特征在于,所述方法包括:/n获取目标场景文字图片;/n将所述目标场景文字图片输入预设主干网络模型中生成特征图;/n将所述目标场景文字图片输入预设字符锚定池化模型中,获取所述特征图对应的字符特征序列;/n将所述字符特征序列输入预设编解码模型中生成文字。/n

【技术特征摘要】
1.一种场景文字识别方法,其特征在于,所述方法包括:
获取目标场景文字图片;
将所述目标场景文字图片输入预设主干网络模型中生成特征图;
将所述目标场景文字图片输入预设字符锚定池化模型中,获取所述特征图对应的字符特征序列;
将所述字符特征序列输入预设编解码模型中生成文字。


2.根据权利要求1所述的方法,其特征在于,所述将所述目标场景文字图片输入预设字符锚定池化模型中,获取所述特征图对应的字符特征序列,包括:
当接收到目标场景文字图片时,获取预设字符锚定池化模型中字符锚定模块和锚定池模块;
将所述目标场景文字图片输入所述字符锚定模块中生成字符锚定线;
基于所述锚定池模块和所述字符锚定线获取所述特征图对应的字符特征序列。


3.根据权利要求1所述的方法,其特征在于,所述获取目标场景文字图片之前,还包括:
创建主干网络模型、字符锚定池化模型和编解码模型;
采集合成的场景文字图片和真实场景文字图片作为训练样本;
将所述训练样本输入所述主干网络模型、字符锚定池化模型和编解码模型中进行训练生成训练后的主干网络模型、字符锚定池化模型和编解码模型。将所述训练后的主干网络模型、字符锚定池化模型和编解码模型作为预设主干网络模型、预设字符锚定池化模型和预设编解码模型。


4.根据权利要求1所述的方法,其特征在于,所述特征图的提取方式至少包括最邻近值插值、双线性插值、三次内插法中的一种方式。


5.根据权利要求3所述的方法,其特征在于,所述采集合成的场景文字图片中,所述场景文字图片由python的pygame进行渲染,所述场景文字图片中文字的字体使用google公开的字体库。


6.一种场景文字识别装置,其特征在于,所述装...

【专利技术属性】
技术研发人员:关玉烁边凯归王韬张高瀚
申请(专利权)人:浙江省北大信息技术高等研究院杭州未名信科科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1