一种场景文字识别方法、装置、存储介质及终端制造方法及图纸

技术编号：23853731 阅读：31 留言：0更新日期：2020-04-18 09:59

本发明专利技术公开了一种场景文字识别方法、装置、存储介质及终端，所述方法包括：获取目标场景文字图片；将所述目标场景文字图片输入预设主干网络模型中生成特征图；将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；将所述字符特征序列输入预设编解码模型中生成文字。因此，采用本申请实施例，可以提高场景文字识别的准确率。

A method, device, storage medium and terminal of scene character recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种场景文字识别方法、装置、存储介质及终端
本专利技术涉及计算机
，特别涉及一种场景文字识别方法、装置、存储介质及终端。
技术介绍
场景文字识别技术利用计算机自动识别自然场景下的文字，该技术可以广泛应用于证件识别、即时翻译、机器人导航、自动驾驶等领域。现有的场景文字识别方法大多利用基于卷积神经网络(convolutionalneuralnetwork,CNN)和递归神经网络(recurrentneuralnetwork,RNN)相结合的技术，首先利用CNN从图片中提取特征，然后利用RNN进行特征解码，翻译得到图片中的场景文字。由于实际场景文字存在形状不规则特点，因此利用这种识别方法识别后的结果和实际结果存在误差，从而降低了场景文字的识别准确率。
技术实现思路
本申请实施例提供了一种场景文字识别方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。第一方面，本申请实施例提供了一种场景文字识别方法，所述方法包括：获取目标场景文字图片；将所述目标场景文字图片输入预设主干网络模型中生成特征图；将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；将所述字符特征序列输入预设编解码模型中生成文字。可选的，所述将所述目标场景文字图片...

【技术保护点】
1.一种场景文字识别方法，其特征在于，所述方法包括：/n获取目标场景文字图片；/n将所述目标场景文字图片输入预设主干网络模型中生成特征图；/n将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；/n将所述字符特征序列输入预设编解码模型中生成文字。/n

【技术特征摘要】
1.一种场景文字识别方法，其特征在于，所述方法包括：
获取目标场景文字图片；
将所述目标场景文字图片输入预设主干网络模型中生成特征图；
将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；
将所述字符特征序列输入预设编解码模型中生成文字。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列，包括：
当接收到目标场景文字图片时，获取预设字符锚定池化模型中字符锚定模块和锚定池模块；
将所述目标场景文字图片输入所述字符锚定模块中生成字符锚定线；
基于所述锚定池模块和所述字符锚定线获取所述特征图对应的字符特征序列。

3.根据权利要求1所述的方法，其特征在于，所述获取目标场景文字图片之前，还包括：
创建主干网络模型、字符锚定池化模型和编解码模型；
采集合成的场景文字图片和真实场景文字图片作为训练样本；
将所述训练样本输入所述主干网络模型、字符锚定池化模型和编解码模型中进行训练生成训练后的主干网络模型、字符锚定池化模型和编解码模型。将所述训练后的主干网络模型、字符锚定池化模型和编解码模型作为预设主干网络模型、预设字符锚定池化模型和预设编解码模型。

4.根据权利要求1所述的方法，其特征在于，所述特征图的提取方式至少包括最邻近值插值、双线性插值、三次内插法中的一种方式。

5.根据权利要求3所述的方法，其特征在于，所述采集合成的场景文字图片中，所述场景文字图片由python的pygame进行渲染，所述场景文字图片中文字的字体使用google公开的字体库。

6.一种场景文字识别装置，其特征在于，所述装...

【专利技术属性】
技术研发人员：关玉烁，边凯归，王韬，张高瀚，
申请(专利权)人：浙江省北大信息技术高等研究院，杭州未名信科科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人