场景文本识别中基于对抗学习的序列领域适应方法技术

技术编号：24093627 阅读：33 留言：0更新日期：2020-05-09 09:13

本发明专利技术属于人工智能技术领域，具体为一种基于属于机器视觉场景文本识别任务上的领域适应方法。本发明专利技术方法包括：构建CNN‑LSTM网络、注意力网络；将两者组合成场景文本识别网络；将自源域与目标域的场景图像输入场景文本识别网络，由CNN‑LSTM从输入的场景图像中提取图像特征，由注意力网络对图像特征进行再编码，提取出每一个字符的对应特征，实现将图像中的文本信息切分成字符级别信息；最后运用基于对抗学习的迁移学习技术，构建域分类网络，与场景文本识别网络共同构成对抗生成网络，最终使模型能够有效适应目标域。本发明专利技术充分利用少量目标域标定样本，解决了在实际场景文本识别任务中经常出现的样本稀缺问题，提高识别效果。

Sequential domain adaptation based on confrontation learning in scene text recognition

全部详细技术资料下载

【技术实现步骤摘要】
场景文本识别中基于对抗学习的序列领域适应方法
本专利技术属于人工智能
，具体涉及场景文本识别中基于对抗学习的序列领域适应方法。
技术介绍
随着计算视觉领域的快速发展，场景文本识别的应用覆盖了生活中的各个方面。但是深度学习保证效果的一个很关键因素就是需要提供大量的标定样本，然而在实际中往往仅能提供少量的标定样本。常见的解决方法是采用已有的拥有大量样本的相关场景的样本参与训练，但是由于场景间的差异，其效果常是不尽人意。目前已有的关于领域适应的方法有一个共同的问题，就是它们都是针对计算机视觉任务中的分类任务上的，通过类似对抗学习的方法或者其他方法，减少源域与目标域之间的差异，最终在目标域上取得最佳效果。但是对像文本识别这样的序列识别任务无能为力。术语解释：对抗学习(AdversarialLearning)：通过一种交替迭代的训练方式，最终使模型能够生成以假乱真的目标(特征表示、图像等)。常用于图像生成、图像超分辨、领域适应等领域。领域适应(DomainAdaptation)：是迁移学习的一种，利用信息...

【技术保护点】
1.一种场景文本识别中基于对抗学习的序列领域适应方法，其特征在于，基本流程为：/n(1)首先，构建一个CNN-LSTM网络作为编码器，构建一个注意力网络作为解码器；将两者组合成一个场景文本识别网络，并在注意力网络中添加一个注意力松弛结构；/n(2)然后，将一对分别来自源域与目标域的场景图像同时输入场景文本识别网络，由CNN-LSTM网络的编码器作为基干从输入的源域与目标域的场景图像中提取图像特征，再由注意力网络对图像特征进行再编码，提取出每一个字符的对应特征，实现将图像中的文本信息“切分”成字符级别信息；/n(3)最后，运用基于对抗学习的迁移学习技术，构建一个域分类网络，与上述场景文本识别网络...

【技术特征摘要】
1.一种场景文本识别中基于对抗学习的序列领域适应方法，其特征在于，基本流程为：
(1)首先，构建一个CNN-LSTM网络作为编码器，构建一个注意力网络作为解码器；将两者组合成一个场景文本识别网络，并在注意力网络中添加一个注意力松弛结构；
(2)然后，将一对分别来自源域与目标域的场景图像同时输入场景文本识别网络，由CNN-LSTM网络的编码器作为基干从输入的源域与目标域的场景图像中提取图像特征，再由注意力网络对图像特征进行再编码，提取出每一个字符的对应特征，实现将图像中的文本信息“切分”成字符级别信息；
(3)最后，运用基于对抗学习的迁移学习技术，构建一个域分类网络，与上述场景文本识别网络共同构成一个对抗生成网络，让注意力网络最小化源域与目标域的差异，最终使模型能够有效适应目标域，充分利用少量的目标域的标定样本，解决标定样本过少的问题；
其中：
所述编码器，即CNN-LSTM网络，其基干为多层神经网络组成，每一层为卷积神经网络，正则化结构以及非线性激活函数；其主要功能是提取图像特征，将数据从原始特征空间映射到高维的抽象特征空间；其后为一个长短期记忆网络，其功能为将上述特征的上下文依赖加以解析，对特征重新编码；其重新编码的工作方式为：

X＝(x1,…,xM)表示为编码信息；经过编码，得到原始信息的编码序列，即为特征序列，其中每个特征都对应原图中的某个区域；
所述解码器，即注意力网络，由注意力结构、长短期记忆网络以及注意力松弛结构构成；用于对编码器输出的特征，进行注意力处理，输出图像中每个字符对应的特征，用于后续的识别；注意力结构与长短期记忆网络为其结构主体，对编码器输出特征进行处理，逐字符输出对应特征；
注意力松弛结构主要用于解决注意力结构原有的容易导致过于把注意力集中在一个狭窄区域的问题；
所述域分类网络，由双层神经网络组成，为全连接神经网络与非线性激活函数；其主要功能为对注意力网络输出的源域与目标域字符特征进行分类，判断其来源，用于与场景文本识别网络进行对抗学习，使得场景文本识别网络能够有效地在目标域识别。

2.根据权利要求1所述的场景文本识别中基于对抗学习的序列领域适应方法，其特征在于，所述解码器中，注意力结构与长短期记忆网络对输出特征进行处理，逐字符输出对应特征，主要方式为：

et,j＝wTtanh(Wst-1+Vhj+b)

3.根据权利要求1所述的场景文本识别中基于对抗学习的序列领域适应方法，其特征在于，所述解码器中，注意力松弛结构的工作方式为：

其中，λ∈[0,1]...

【专利技术属性】
技术研发人员：周水庚，林景煌，程战战，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人