当前位置: 首页 > 专利查询>复旦大学专利>正文

场景文本识别中基于对抗学习的序列领域适应方法技术

技术编号:24093627 阅读:16 留言:0更新日期:2020-05-09 09:13
本发明专利技术属于人工智能技术领域,具体为一种基于属于机器视觉场景文本识别任务上的领域适应方法。本发明专利技术方法包括:构建CNN‑LSTM网络、注意力网络;将两者组合成场景文本识别网络;将自源域与目标域的场景图像输入场景文本识别网络,由CNN‑LSTM从输入的场景图像中提取图像特征,由注意力网络对图像特征进行再编码,提取出每一个字符的对应特征,实现将图像中的文本信息切分成字符级别信息;最后运用基于对抗学习的迁移学习技术,构建域分类网络,与场景文本识别网络共同构成对抗生成网络,最终使模型能够有效适应目标域。本发明专利技术充分利用少量目标域标定样本,解决了在实际场景文本识别任务中经常出现的样本稀缺问题,提高识别效果。

Sequential domain adaptation based on confrontation learning in scene text recognition

【技术实现步骤摘要】
场景文本识别中基于对抗学习的序列领域适应方法
本专利技术属于人工智能
,具体涉及场景文本识别中基于对抗学习的序列领域适应方法。
技术介绍
随着计算视觉领域的快速发展,场景文本识别的应用覆盖了生活中的各个方面。但是深度学习保证效果的一个很关键因素就是需要提供大量的标定样本,然而在实际中往往仅能提供少量的标定样本。常见的解决方法是采用已有的拥有大量样本的相关场景的样本参与训练,但是由于场景间的差异,其效果常是不尽人意。目前已有的关于领域适应的方法有一个共同的问题,就是它们都是针对计算机视觉任务中的分类任务上的,通过类似对抗学习的方法或者其他方法,减少源域与目标域之间的差异,最终在目标域上取得最佳效果。但是对像文本识别这样的序列识别任务无能为力。术语解释:对抗学习(AdversarialLearning):通过一种交替迭代的训练方式,最终使模型能够生成以假乱真的目标(特征表示、图像等)。常用于图像生成、图像超分辨、领域适应等领域。领域适应(DomainAdaptation):是迁移学习的一种,利用信息丰富的源域样本,通过减少领域间分布差异等手段,来提升目标域模型的性能。迁移学习(TransferLearning):运用已存有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。序列到序列学习(SequencetoSequenceLearning):也简称为序列学习,指将输入的序列数据进行识别、转换等生成输出序列的参数化机器学习方法,广泛用于机器翻译、语音识别、OCR等领域。源域:与目标域任务相似,拥有大量样本的场景;目标域:仅少量的标定样本的场景;注意力模型(AttentionModel,AM):是一种对齐模型,能够实现Target与关键特征的对齐,具体表现在目标词与原图对应区域的对齐。
技术实现思路
本专利技术的目的在于提出一种能够适应目标域、提高识别效果的基于对抗学习的序列领域适应方法。本专利技术提出的基于对抗学习的序列领域适应方法,其基本步骤为:首先,构建一个CNN-LSTM网络作为编码器,构建一个注意力网络作为解码器;将两者组合成一个场景文本识别网络,并在注意力网络中添加一个注意力松弛结构;然后,将一对分别来自源域与目标域的场景图像同时输入场景文本识别网络,由CNN-LSTM网络的编码器作为基干从输入的源域与目标域的场景图像中提取图像特征,再由注意力网络对图像特征进行再编码,提取出每一个字符的对应特征,实现将图像中的文本信息“切分”成字符级别信息;然后运用基于对抗学习的迁移学习技术,构建一个域分类网络,与上述场景文本识别网络共同构成一个对抗生成网络,让注意力网络最小化源域与目标域的差异,最终使模型能够有效适应目标域,充分利用少量的目标域的标定样本,解决标定样本过少的问题。本专利技术方法关注了场景文本识别过程中对于特定领域识别能力薄弱的缺陷,结合注意力网络与对抗学习的特点,使在有大量训练数据的源数据集上训练的场景文本识别网络,能够有效地在仅有少量数据的目标场景下同样拥有良好的识别效果,图1展示了本专利技术的主要架构,本专利技术的整个网络架构包括一个编码器,解码器以及一个域分类网络;其中:所述编码器(CNN-LSTM网络):其基干为多层神经网络组成,每一层为卷积神经网络,正则化结构以及非线性激活函数;其主要功能的提取图像特征,将数据从原始特征空间映射到高维的抽象特征空间;其后为一个长短期记忆网络,其功能为将上述特征的上下文依赖加以解析,对特征重新编码。其工作方式为:X=(x1,…,xM)表示为编码信息,其过程如图2-1中的Step1所示。经过编码,可以得到原始信息的编码序列(约定为特征序列),其中每个特征都对应原图中的某个区域。所述解码器(注意力网络),由注意力结构,长短期记忆网络以及注意力松弛结构构成;用于对编码器输出的特征,进行注意力处理,输出图像中每个字符对应的特征,用于后续的识别。注意力结构与长短期记忆网络为其结构主体,对编码器输出特征进行处理,逐字符输出对应特征,主要工作方式为:et,j=wTtanh(Wst-1+Vhj+b)注意力松弛结构主要解决了注意力结构原有的容易导致过于把注意力集中在一个过于狭窄的区域,工作方式为:其中,λ∈[0,1]为一个可以调整的超参数,控制了保留的注意力的程度。η∈Z+控制了注意力的松弛范围。A(t,j±i)表示了与当前特征相邻的注意力权重。其效果简要效果可参考图2。所述域分类网络,由双层神经网络组成,为全连接神经网络与非线性激活函数;主要功能为对注意力网络输出的源域与目标域字符特征进行分类,判断其来源,用于与场景文本识别网络进行对抗学习,使得场景文本识别网络能够有效地在目标域识别。整个模型的算法具体步骤如下。步骤1,将源域与目标域的图片原文件先进行缩放,得到固定大小的图像。并对图像进行数据预处理(对数据进行标准化处理,减均值除标准差),目标域的数据还需要分成训练集与测试集,源域中的数据全部作为训练集。步骤2,将训练集中的所有样本打乱顺序,每次按照固定的比例分别从源域与目标域中选取一批图像输入输入到编码器中进行初步的编码与特征提取。步骤3,对于提取的特征,利用注意力网络结构进行特征的在编码,获得字符特征序列,经过后续的网络结构直接进行分类,获得识别的文本结果。步骤4,对于整体网络模型的参数,使用源域的图像进行预训练,其基本的模型训练优化函数如下:其中,I为预测的文本序列结果,为文本标定中的第t个字符,θatt为所有编码器与注意力网络的参数。对该优化目标函数计算关于模型参数的导数,并进行反向传播更新参数;参数更新的优化算法为ADAM算法。步骤5,使用源域数据,并使用步骤2,步骤3,步骤4的方式训练,获得模型的初始化参数。步骤6,源域与目标域的图像与步骤5类似的特征提取方式,唯一的区别在于,其在原本的注意力结构中,添加并使用注意力松弛结构,提取字符特征序列。步骤7,对步骤6中的字符特征序列,通过采样产生一系列特征对;特征对是本专利技术的一个重点,本专利技术的生成对抗策略是通过混淆不同类的特征对,进而实现源场景到目标场景的迁移;其中每个特征对由2个字符特征组成,特征对总共分为4个类别,如图3所示,根据特征的不同来源以及不同类别,特征对具体分为:同场景(均为源场景)、同一(字符)类别;不同场景(第一个特征为源场景,第二个为目标场景)、同一类别;同场景、不同类别;不同场景、不同类别。步骤8,对域分类网络进行预训练,即对上述特征对进行分类,损失函数为Softmaxloss,记为训练域分类网络参数。其中域分类网络为一个4分类器,该损失函数的目的在于使其能够正确区分这4组特征对,掌握不同类的特征对间的差异。步骤9,对场景文本识别网络的参数进行更新,使用对抗学习训练方式本文档来自技高网
...

【技术保护点】
1.一种场景文本识别中基于对抗学习的序列领域适应方法,其特征在于,基本流程为:/n(1)首先,构建一个CNN-LSTM网络作为编码器,构建一个注意力网络作为解码器;将两者组合成一个场景文本识别网络,并在注意力网络中添加一个注意力松弛结构;/n(2)然后,将一对分别来自源域与目标域的场景图像同时输入场景文本识别网络,由CNN-LSTM网络的编码器作为基干从输入的源域与目标域的场景图像中提取图像特征,再由注意力网络对图像特征进行再编码,提取出每一个字符的对应特征,实现将图像中的文本信息“切分”成字符级别信息;/n(3)最后,运用基于对抗学习的迁移学习技术,构建一个域分类网络,与上述场景文本识别网络共同构成一个对抗生成网络,让注意力网络最小化源域与目标域的差异,最终使模型能够有效适应目标域,充分利用少量的目标域的标定样本,解决标定样本过少的问题;/n其中:/n所述编码器,即CNN-LSTM网络,其基干为多层神经网络组成,每一层为卷积神经网络,正则化结构以及非线性激活函数;其主要功能是提取图像特征,将数据从原始特征空间映射到高维的抽象特征空间;其后为一个长短期记忆网络,其功能为将上述特征的上下文依赖加以解析,对特征重新编码;其重新编码的工作方式为:/n...

【技术特征摘要】
1.一种场景文本识别中基于对抗学习的序列领域适应方法,其特征在于,基本流程为:
(1)首先,构建一个CNN-LSTM网络作为编码器,构建一个注意力网络作为解码器;将两者组合成一个场景文本识别网络,并在注意力网络中添加一个注意力松弛结构;
(2)然后,将一对分别来自源域与目标域的场景图像同时输入场景文本识别网络,由CNN-LSTM网络的编码器作为基干从输入的源域与目标域的场景图像中提取图像特征,再由注意力网络对图像特征进行再编码,提取出每一个字符的对应特征,实现将图像中的文本信息“切分”成字符级别信息;
(3)最后,运用基于对抗学习的迁移学习技术,构建一个域分类网络,与上述场景文本识别网络共同构成一个对抗生成网络,让注意力网络最小化源域与目标域的差异,最终使模型能够有效适应目标域,充分利用少量的目标域的标定样本,解决标定样本过少的问题;
其中:
所述编码器,即CNN-LSTM网络,其基干为多层神经网络组成,每一层为卷积神经网络,正则化结构以及非线性激活函数;其主要功能是提取图像特征,将数据从原始特征空间映射到高维的抽象特征空间;其后为一个长短期记忆网络,其功能为将上述特征的上下文依赖加以解析,对特征重新编码;其重新编码的工作方式为:



X=(x1,…,xM)表示为编码信息;经过编码,得到原始信息的编码序列,即为特征序列,其中每个特征都对应原图中的某个区域;
所述解码器,即注意力网络,由注意力结构、长短期记忆网络以及注意力松弛结构构成;用于对编码器输出的特征,进行注意力处理,输出图像中每个字符对应的特征,用于后续的识别;注意力结构与长短期记忆网络为其结构主体,对编码器输出特征进行处理,逐字符输出对应特征;
注意力松弛结构主要用于解决注意力结构原有的容易导致过于把注意力集中在一个狭窄区域的问题;
所述域分类网络,由双层神经网络组成,为全连接神经网络与非线性激活函数;其主要功能为对注意力网络输出的源域与目标域字符特征进行分类,判断其来源,用于与场景文本识别网络进行对抗学习,使得场景文本识别网络能够有效地在目标域识别。


2.根据权利要求1所述的场景文本识别中基于对抗学习的序列领域适应方法,其特征在于,所述解码器中,注意力结构与长短期记忆网络对输出特征进行处理,逐字符输出对应特征,主要方式为:



et,j=wTtanh(Wst-1+Vhj+b)








3.根据权利要求1所述的场景文本识别中基于对抗学习的序列领域适应方法,其特征在于,所述解码器中,注意力松弛结构的工作方式为:






其中,λ∈[0,1]...

【专利技术属性】
技术研发人员:周水庚林景煌程战战
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1