一种基于自适应离散架构搜索印刷文本去噪网络的方法技术

技术编号：33629195 阅读：9 留言：0更新日期：2022-06-02 01:29

本发明专利技术公开了一种基于自适应离散架构搜索印刷文本去噪网络的方法，主要的思路在于首先在定义了所有操作的超网中进行搜索，找到较为重要的操作，随后构建出子网(去噪网络)。本发明专利技术通过自动化确定去噪网络的网络结构，不仅可以针对特定的印刷数据集构建特定的网络，提高了去噪网络的性能，还在一定程度上减少了人工智能专家在网络构建过程中的参与程度，有助于缩减企业在此方面的人力成本。于缩减企业在此方面的人力成本。于缩减企业在此方面的人力成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自适应离散架构搜索印刷文本去噪网络的方法

[0001]本专利技术涉及深度学习、计算机视觉、神经网络架构搜索领域，特别涉及一种基于自适应离散架构搜索印刷文本去噪网络的方法。

技术介绍

[0002]光学字符识别(OCR)是将打字或手写文档转换成数字化格式的过程。数字阅读设备上的经典小说以及旧的医疗记录，均可以通过OCR技术将其数字化，使以前的静态内容可编辑、可搜索、并且更容易共享。但是，依然存在较多纸质文件由于咖啡渍、褪色的晒斑、折角的书页和许多褶皱等噪声，导致其识别的准确率会有较为明显的下降，影响了噪声文件的数字化正确率。为进一步提高噪声文件的识别准确率，可进一步搭建去噪网络，将其把图片中的噪声抹去。如下图1所示，左图为原始的有褶皱的文件，右图为去噪后的无褶皱的文件。将原始的有褶皱的文件直接输入到由DBNet和CRNN搭建的通用识别模型中，得到的识别结果如下图2中的左图所示。从左图识别结果可看出在原本的有褶皱的文本中，存在较多的文本识别错误，比如“The best way to print these light rectan”被识别为“The best aaht rectar”。但在去除褶皱之后的图片中，这句话就识别正确，相比未去噪之前的识别准确率有了明显的提升。通过这一实验结果可看出去噪网络去除图片中的噪声，将有助于提高噪声图片的识别准确率。
[0003]在去噪网络中，较为常用的网络结构为UNet,UNet中输入数据为去噪前的图片，输出为去噪后的图片。虽然UNet已被广泛的应用到了图像分割领域，但根...

【技术保护点】

【技术特征摘要】
1.一种基于自适应离散架构搜索印刷文本去噪网络的方法，其特征在于，主要的思路在于首先在定义了所有操作的超网中进行搜索，找到较为重要的操作，随后构建出子网(去噪网络)，具体而言，包括以下步骤：Step1.初定去噪网络的结构：确定去噪网络的结构由N个normalblock1组成；其中保持normalblock1的输入特征图大小与输出特征图大小相同；其中N为16；Step2.确定超网的normalblock1数量：由于需要在超网中确定normalblock1的结构；超网的层数要小于去噪网络的层数，即超网中Normalblock1的个数设置为8；Step3.超网中normalblock1的设置，在normalblock1是一个较为浅层的网络，主要由4个节点组成，为帮助去噪网络确定节点之间的操作，在两个节点之间定义了8个可供选择操作，分别是dil_conv_3x3、dil_conv_5X5、max_pool_3x3、avg_pool_3x3、skip_connection、sep_conv_3x3、sep_conv_5x5和none；Step4.引入操作权重因子，在Step4中将对Step3中定义的8个操作分别定义8个操作权重因子Step5.引入可微离散化函数自动挑选操作；由于在Step4中设置了操作权重因子，权重因子在网络训练过程中自适应的进行调整，...

【专利技术属性】
技术研发人员：李慧，方徐伟，徐小龙，张帅，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人