图像中文本的识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号:20222208 阅读:26 留言:0更新日期:2019-01-28 20:35
本发明专利技术揭示了一种图像中文本的识别方法及装置、电子设备、计算机可读存储介质,该方案通过多层叠加的网络模型执行图像中文本的端到端识别,该方案包括:通过多层方式逐层进行图像的空间可分离卷积操作,将空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,低层与输出卷积特征的高层相映射;从执行空间可分离卷积操作的最底层获取全局特征;通过全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;将池化特征后向传播至执行字符识别操作的识别分支网络层,通过识别分支网络层输出文本区域标记的字符序列。该方案节省了模型训练时间,提高了识别准确性。

【技术实现步骤摘要】
图像中文本的识别方法及装置、电子设备、存储介质
本专利技术涉及图像处理
,特别涉及一种图像中文本的识别方法及装置、电子设备、计算机可读存储介质。
技术介绍
在计算机图像处理领域,文本识别是指让计算机自动地判别图像中的字符属于字符库中的哪一个字,字符库由人们事先建立,通常包含现实生活中最常用的字符。图像中文本的识别,通常通过搭建两个模型,一个模型用于在一张包含文本的自然场景图像中找出文本所在位置,然后从图像中裁剪出文本区域。另一个模型用于识别出文本区域的具体字符内容。具体的,先获取包含不同字符的大量样本图像作为训练集,利用这些样本图像分别进行字符分类器的训练和文本定位器的训练。在训练完成后,先通过文本定位器从待测图像中定位出文本区域,然后裁剪出文本区域,再利用字符分类器识别出文本区域的字符内容。上述方案,需要利用这些样本图像分别进行字符分类器的训练和文本定位器的训练,模型训练的工作量较大,并且最终字符的识别准确性,受到两个模型准确率的影响,由此限制了图像中文本识别准确率的提升。
技术实现思路
为了解决相关技术中存在的需要分别进行字符分类器的训练和文本定位器的训练,模型训练的工作量较大本文档来自技高网...

【技术保护点】
1.一种图像中文本的识别方法,其特征在于,所述方法通过多层叠加的网络模型执行图像中文本的端到端识别,所述方法包括:通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;从执行空间可分离卷积操作的最底层获取全局特征;通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。

【技术特征摘要】
1.一种图像中文本的识别方法,其特征在于,所述方法通过多层叠加的网络模型执行图像中文本的端到端识别,所述方法包括:通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;从执行空间可分离卷积操作的最底层获取全局特征;通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。2.根据权利要求1所述的方法,其特征在于,所述通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征,包括:将所述全局特征输入执行候选区域检测的区域回归网络层,通过所述区域回归网络层输出所述图像中文本的边框候选区域;将所述边框候选区域输入执行区域筛选和区域旋转的池化层;根据所述池化层对所述全局特征进行区域筛选参数预测获得的像素级区域筛选参数,从所述边框候选区域中筛选出所述文本区域并旋转所述文本区域至水平位置,获得所述文本区域的池化特征。3.根据权利要求2所述的方法,其特征在于,所述根据所述池化层对所述全局特征进行区域筛选参数预测获得的像素级区域筛选参数,从所述边框候选区域中筛选出所述文本区域并旋转所述文本区域至水平位置,获得所述文本区域的池化特征,包括:获取所述池化层对所述全局特征进行卷积计算生成的像素级分类置信度,所述像素级分类置信度是指所述图像中每个像素属于文本区域的概率;根据所述像素级分类置信度以及所述边框候选区域的交并比例,从所述边框候选区域中筛选出所述文本区域;根据所述池化层对所述全局特征进行卷积计算生成的像素级旋转角度和像素级边框距离,通过插值算法将所述文本区域旋转至水平位置,得到所述文本区域的池化特征。4.根据权利要求1所述的方法,其特征在于,所述识别分支网络层包括时间卷积网络层和字符分类层,所述将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列,包括:将所述池化特征后向传播至所述时间卷积网络层进行字符特征的提取;将所提取的字符特征输入所述字符分类层,通过所述字符分类层输出所述文本区域标记的字符序列。5.根据权利要求1所述的方法,其特征在于,还包括:获取图像上记录有文本信息的样本图像集,所述文本信息的内容已知;利用所述样本图像集进行所述网络模型的训练,通过调整所述网络模型的参数,使所述网络模型输出的每个样本图像的字符序列与对应文本信息之间的差异最小。6.根据权利要求5所述的方法,其特征在于,所述利用所述样本图像集进行所述网络模型的训练,通过调整所述网络模型的参数,使所述网络模型输出的每个样本图像的字符序列与对应的文本信息差异最小,包括:根据所述网络模型进行文本区域检测产生的误差以及执行字符识别操作产生的误差,获得所述网络模型的文本识别误差;根据所述文本识别误差,通过后向传播调整所述网络模型进行所述文本区域检测的网络层参数和执行字符识别操作的网络层参数,使所述文本识别误差最小。7.根据权利要求6所述的方法,其特征在于,所述根据所述网络模型进行文本区域检测产生的误差以及执行字符识别操作产生的误差,获得所述网络模型的文本识别误差,包括:根据所述网络模型进行像素级分类预测产生的误差、像素级边框距离预测产生的误差以及像素级旋转角度预测产生的误差,确定所述网络模型进行文本区域检测产生的误差;将所述网络模型...

【专利技术属性】
技术研发人员:刘铭
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1