一种基于自适应离散架构搜索印刷文本去噪网络的方法技术

技术编号:33629195 阅读:9 留言:0更新日期:2022-06-02 01:29
本发明专利技术公开了一种基于自适应离散架构搜索印刷文本去噪网络的方法,主要的思路在于首先在定义了所有操作的超网中进行搜索,找到较为重要的操作,随后构建出子网(去噪网络)。本发明专利技术通过自动化确定去噪网络的网络结构,不仅可以针对特定的印刷数据集构建特定的网络,提高了去噪网络的性能,还在一定程度上减少了人工智能专家在网络构建过程中的参与程度,有助于缩减企业在此方面的人力成本。于缩减企业在此方面的人力成本。于缩减企业在此方面的人力成本。

【技术实现步骤摘要】
一种基于自适应离散架构搜索印刷文本去噪网络的方法


[0001]本专利技术涉及深度学习、计算机视觉、神经网络架构搜索领域,特别涉及一种基于自适应离散架构搜索印刷文本去噪网络的方法。

技术介绍

[0002]光学字符识别(OCR)是将打字或手写文档转换成数字化格式的过程。数字阅读设备上的经典小说以及旧的医疗记录,均可以通过OCR技术将其数字化,使以前的静态内容可编辑、可搜索、并且更容易共享。但是,依然存在较多纸质文件由于咖啡渍、褪色的晒斑、折角的书页和许多褶皱等噪声,导致其识别的准确率会有较为明显的下降,影响了噪声文件的数字化正确率。为进一步提高噪声文件的识别准确率,可进一步搭建去噪网络,将其把图片中的噪声抹去。如下图1所示,左图为原始的有褶皱的文件,右图为去噪后的无褶皱的文件。将原始的有褶皱的文件直接输入到由DBNet和CRNN搭建的通用识别模型中,得到的识别结果如下图2中的左图所示。从左图识别结果可看出在原本的有褶皱的文本中,存在较多的文本识别错误,比如“The best way to print these light rectan”被识别为“The best aaht rectar”。但在去除褶皱之后的图片中,这句话就识别正确,相比未去噪之前的识别准确率有了明显的提升。通过这一实验结果可看出去噪网络去除图片中的噪声,将有助于提高噪声图片的识别准确率。
[0003]在去噪网络中,较为常用的网络结构为UNet,UNet中输入数据为去噪前的图片,输出为去噪后的图片。虽然UNet已被广泛的应用到了图像分割领域,但根据“没有免费的午餐”定理,UNet网络在印刷文字的去噪效果中并不一定是最好的。为构建一个专门针对印刷文字的去噪网络,需要人工智能专家依据经验不断地调整影响去噪性能的超参数、比如确定是采用可分离卷积层还是普通的卷积层、是采用最大池化还是平均池化等操作。这些超参数的调整需要花费专家大量的时间,提高了企业的人力成本。为搭建一个性能较好的去噪网络,并降低人工智能专家在此花费的时间,本专利提出了一种基于自适应离散架构搜索印刷文本去噪网络的方法。

技术实现思路

[0004]本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种基于自适应离散架构搜索印刷文本去噪网络的方法。
[0005]本专利技术提供了如下的技术方案:
[0006]本专利技术提供一种基于自适应离散架构搜索印刷文本去噪网络的方法,主要的思路在于首先在定义了所有操作的超网中进行搜索,找到较为重要的操作,随后构建出子网(去噪网络),具体而言,包括以下步骤:
[0007]Step1.初定去噪网络的结构:确定去噪网络的结构由N个normalblock1组成,如图3所示;其中保持normalblock1的输入特征图大小与输出特征图大小相同;其中N为16;
[0008]Step2.确定超网的normalblock1数量:由于需要在超网中确定normalblock1的结
构;超网的层数要小于去噪网络的层数,即超网中Normalblock1的个数设置为8;
[0009]Step3.超网中normalblock1的设置如图4所示,在normalblock1是一个较为浅层的网络,主要由4个节点组成,为帮助去噪网络确定节点之间的操作,在两个节点之间(比如图4(a)中的节点0和节点1)定义了8个可供选择操作,分别是dil_conv_3x3、dil_conv_5X5、max_pool_3x3、avg_pool_3x3、skip_connection、sep_conv_3x3、sep_conv_5x5和none;
[0010]Step4.引入操作权重因子,在Step4中将对Step3中定义的8个操作分别定义8个操作权重因子
[0011]Step5.引入可微离散化函数自动挑选操作;由于在Step4中设置了操作权重因子,权重因子在网络训练过程中自适应的进行调整,但后续在挑选子网时,只需要重要性最大的操作;为更好的得到重要性最大的操作,引入了可微离散化函数自动的挑选操作,可微离散函数如等式1所示,其中k=50/(total_epoch

epoch),total_epoch为超网训练过程总的迭代次数,epoch为当前超网训练迭代;随着迭代的进行,k值逐渐增大,Msigmoid的函数曲线将逐渐地逼近二值化地函数曲线,起到离散超网的效果,从而得到子网的网络结构;k值对Msigmoid函数图像的影响如图5所示;从图5可知,k值越大,Msigmoid函数越接近于0和1的二值化图像;Msigmoid函数可以使超网在迭代过程中逐渐挑选出较优的操作,而淘汰掉部分较差的操作;
[0012][0013]假设8个操作得到的特征图分别为x1,x2…
x8,那么得到的特征图输出可计算为:
[0014][0015]Step6.引入loss函数限制挑选的个数;为保证参数量相对较少,一个节点最终只需要选择排序靠前的前2个操作,由于MSigmoid函数只限制了操作的权重因子趋向于0和1,因此可能存在较多的权重因子等于1,不利于最后的去噪网络选择;因此引入了loss函数来同时对操作的数量进行限制;Loss函数如等式2所示:
[0016][0017]基于自适应离散架构搜索确定的normalblock1如下图6所示,再依据事先确定的N值,将normalblock1堆叠N次,即得到最终的去噪网络。
[0018]与现有技术相比,本专利技术的有益效果如下:
[0019]通过自动化确定去噪网络的网络结构,不仅可以针对特定的印刷数据集构建特定的网络,提高了去噪网络的性能,还在一定程度上减少了人工智能专家在网络构建过程中的参与程度,有助于缩减企业在此方面的人力成本。
附图说明
[0020]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实
施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0021]图1是纸质文件去噪前后对比图;
[0022]图2是纸质文件去噪前后识别结果图;
[0023]图3是去噪网络由N个normal block1组成示意图;
[0024]图4是超网中的normal block1示意图;
[0025]图5是k值对Msigmoid的影响示意图;
[0026]图6是自适应离散架构搜索得到的normal block1示意图。
具体实施方式
[0027]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。其中附图中相同的标号全部指的是相同的部件。
[0028]实施例1
[0029]如图1

6,本专利技术提供一种基于自适应离散架构搜索印刷文本去噪网络的方法,主要的思路在于首先在定义了所有操作的超网中进行搜索,找到较为重要的操作,随后构建出子网(去噪网络),具体而言,包括以下步骤:
[0030]Step1.初定去本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应离散架构搜索印刷文本去噪网络的方法,其特征在于,主要的思路在于首先在定义了所有操作的超网中进行搜索,找到较为重要的操作,随后构建出子网(去噪网络),具体而言,包括以下步骤:Step1.初定去噪网络的结构:确定去噪网络的结构由N个normalblock1组成;其中保持normalblock1的输入特征图大小与输出特征图大小相同;其中N为16;Step2.确定超网的normalblock1数量:由于需要在超网中确定normalblock1的结构;超网的层数要小于去噪网络的层数,即超网中Normalblock1的个数设置为8;Step3.超网中normalblock1的设置,在normalblock1是一个较为浅层的网络,主要由4个节点组成,为帮助去噪网络确定节点之间的操作,在两个节点之间定义了8个可供选择操作,分别是dil_conv_3x3、dil_conv_5X5、max_pool_3x3、avg_pool_3x3、skip_connection、sep_conv_3x3、sep_conv_5x5和none;Step4.引入操作权重因子,在Step4中将对Step3中定义的8个操作分别定义8个操作权重因子Step5.引入可微离散化函数自动挑选操作;由于在Step4中设置了操作权重因子,权重因子在网络训练过程中自适应的进行调整,...

【专利技术属性】
技术研发人员:李慧方徐伟徐小龙张帅
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利