基于NAS搜索的端侧OCR识别系统的Backbone设计技术方案

技术编号：33199744 阅读：47 留言：0更新日期：2022-04-24 00:34

本发明专利技术公开了一种基于NAS搜索的端侧OCR识别系统的Backbone设计，包括以下：OCR整体架构设计，OCR系统的设计共分为三大模块，可微分的Backbone，检测头和识别头，这里检测头和识别头可以用常用的检测识别的轻量化架构替代，这里不做讨论，主要目的在于构建一个轻量化的Backbone。通过多任务的架构搜索来为端侧的OCR系统设计Backbone架构，本发明专利技术通过汲取先人优秀经验设计了OCR Backbone的整体架构和四种搜索OP，通过可微分的搜索将网络架构的时延和参数量和检测识别的loss一起优化，在模型效果，模型参数，模型时延三者之间寻找最优解；可以代替人工设计的Backbone寻找最优的部署架构。架构。架构。

全部详细技术资料下载

【技术实现步骤摘要】
基于NAS搜索的端侧OCR识别系统的Backbone设计

[0001]本专利技术涉及OCR、Automl、NAS领域，特别涉及基于NAS搜索的端侧OCR识别系统的Backbone设计。

技术介绍

[0002]OCR即光学字符识别，是指通过字符识别方法将图片中的文字翻译成计算机文字的过程。通常可以应用在各种文档，各种票据，各类证件等等的识别中，这个也是少数可真正在实际生产中落地的技术(基于深度学习)之一，通常OCR分为两个步骤：文字的检测识别和后处理结构化。通常文字的检测和识别有两种方式：两阶段的文本检测+文本识别和单阶段的end2end的检测识别。后处理大致可以分为两种：基于先验知识的后处理和基于深度学习的后处理。
[0003]自2016年以来，automl技术在不断发展，尤其在2018年以来，各类关于自动调参，自动搜索的论文在各大顶会层出不穷,NAS作为automl的分支之一，也受到各界学者和大牛的关注，各类大厂和高校也纷纷投入研究，NAS全称叫Neural Architecture Search，通过定义搜索空间，通过搜索算法来自动搜索神经网络架构，减少人为先验知识和人为偏见，期待搜索出一个更优的神经网络架构。
[0004]目前的OCR识别方式可以分为两种：客户端+服务器识别和端侧识别，第一种方式需要用户在端侧进行图像截取，然后将图片传给服务器，在服务器上进行OCR识别然后将识别结果传回客户端，这种方式的优点在于由于模型部署在服务器上，可以使用大模型，这样识别率会比较高，缺点是由于数据需要两端传递...

【技术保护点】

【技术特征摘要】
1.基于NAS搜索的端侧OCR识别系统的Backbone设计，其特征在于，包括以下：一、OCR整体架构设计：OCR系统的设计共分为三大模块，可微分的Backbone，检测头和识别头，这里检测头和识别头可以用常用的检测识别的轻量化架构替代，这里不做讨论，主要目的在于构建一个轻量化的Backbone；二、Backbone的架构设计：首先需要设计OCR识别的Backbone的整体架构，这里对NASnet中图像分类网络做了些架构优化：N代表着该层的个数，S代表着图片或map的向下变小的倍数，结构使用了16倍的下采样尺度，这样可以大幅度提升网络感受野，对做文本这样的大长宽比的检测会有较大程度的提升；三、池化cell设计：根据以往的NAS搜索的结果看，池化cell是否可搜索对网络性能的贡献不大，于是为了减少网络搜索的时间以及考虑到资源问题(这里只在单GPU搜索)，设计了池化cell：池化cell有以下几个优点，第一拓宽了网络的宽度，根据googlenet能够采集不同的信息是有利于提升准确率的，第二结合了残差网络的思路，可以将浅层信息结合进来；最后通过求和操作将信息综合起来；通过引入了池化cell，缩小了搜索空间；四、卷积cell搜索空间设计：这里不做连接方式的搜索，只做OP类型搜索，这里定义了4种类型的OP；根据mobilenet中提出的dw卷积设计了四种基于端侧的OP来共同构成卷积cell；在卷积cell内部op的组合方式，具体的计算如公式1所示：公式1是用来计算每一层的卷积cell，其中X代表输入的map，X
′
代表输出的map，w
i
代表这一层的架构参数；五、可微分设计：由于这里的架构参数是离散化的，所以不能进行微分操作，于是引入了概率分布和softmax结合的方式将网络架构参数进行重参数化，使得可以随着网络可微分；具体的操作方式如下：Step1：假设网络...

【专利技术属性】
技术研发人员：方徐伟，张帅，徐小龙，谢巍盛，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人