一种面向场景文本识别的数据增强方法、系统及终端技术方案

技术编号：26891637 阅读：27 留言：0更新日期：2020-12-29 16:10

本发明专利技术公开了一种面向场景文本识别的数据增强方法、系统及终端，所述方法包括：将输入样本输入到数据增强器，所述数据增强器根据所述输入样本自适应地选择形变类型；所述数据增强器根据选择的形变类型对所述输入样本进行形变处理以生成增强样本；将所述输入样本和所述增强样本输入到场景文本识别器进行识别，所述场景文本识别器根据识别结果输出损失函数，并反馈给所述数据增强器；所述数据增强器根据所述损失函数生成增强样本。本发明专利技术通过数据增强器根据输入样本的性质和场景文本识别器的能力自适应地生成合适的增强样本，实现了数据增强器和场景文本识别器的联合优化，通过数据增强方法来平衡样本的多样性和亲和性。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向场景文本识别的数据增强方法、系统及终端
本专利技术涉及计算机应用
，尤其涉及一种面向场景文本识别的数据增强方法、系统及终端。
技术介绍
目前，基于深度学习的模型一般都需要使用大量的数据来进行训练以达到较好的效果，但是现有数据量有限导致模型性能存在瓶颈，一种成本较低的解决方式是数据增强，数据增强就是要对原始样本进行一系列的操作产生新的样本。现有的数据增强方法可以分为仿射形变和弹性形变两类。仿射形变方法包括图像旋转、平移和缩放等，如图1(图1中的a)所示，仿射形变可以增强样本的亲和性(亲和性是指生成样本和原始样本的分布差异)，这种仿射形变的方法迫使整个图像执行相同的变换，从而增加文本图像的全局多样性。但是，没有考虑到每个字符的形状多样性，因而存在着多样性不足的问题。弹性形变可以提高每个字符的多样性，然而，这种弹性形变对场景文本图像也存在一些缺陷。例如，由于某些字符(例如“O”和“D”)之间的模式相似，弹性形变可以将一个字符转换为另一个字符，如图1(图1中的b)所示，弹性形变使“A133”上的“1”变...

【技术保护点】
1.一种面向场景文本识别的数据增强方法，其特征在于，所述面向场景文本识别的数据增强方法包括：/n将输入样本输入到数据增强器，所述数据增强器根据所述输入样本自适应地选择形变类型；/n所述数据增强器根据选择的形变类型对所述输入样本进行形变处理以生成增强样本；/n将所述输入样本和所述增强样本输入到场景文本识别器进行识别，所述场景文本识别器根据识别结果输出损失函数，并反馈给所述数据增强器；/n所述数据增强器根据所述损失函数生成增强样本。/n

【技术特征摘要】
1.一种面向场景文本识别的数据增强方法，其特征在于，所述面向场景文本识别的数据增强方法包括：
将输入样本输入到数据增强器，所述数据增强器根据所述输入样本自适应地选择形变类型；
所述数据增强器根据选择的形变类型对所述输入样本进行形变处理以生成增强样本；
将所述输入样本和所述增强样本输入到场景文本识别器进行识别，所述场景文本识别器根据识别结果输出损失函数，并反馈给所述数据增强器；
所述数据增强器根据所述损失函数生成增强样本。

2.根据权利要求1所述的面向场景文本识别的数据增强方法，其特征在于，所述形变类型包括：仿射形变和弹性形变。

3.根据权利要求2所述的面向场景文本识别的数据增强方法，其特征在于，所述仿射形变用于对所述输入样本进行线性变换来保持样本的亲和力；
所述弹性形变用于对所述输入样本进行非线性变换来提高样本的局部多样性。

4.根据权利要求1-3任一项所述的面向场景文本识别的数据增强方法，其特征在于，所述将输入样本输入到数据增强器，所述数据增强器根据所述输入样本自适应地选择形变类型，具体包括：
将所述输入样本输入至预测网络中，所述预测网络对所述输入样本进行特征提取，并得到仿射形变和弹性形变两个通路分别对应的分数值；
比较仿射形变和弹性形变两个通路对应的分数值的大小，选择分数值大作为形变类型。

5.根据权利要求1所述的面向场景文本识别的数据增强方法，其特征在于，所述将所述输入样本和所述增强样本输入到场景文本识别器进行识别，具体包括：
所述场景文本识别器将所述输入样本和所述增强样本的图片输入到神经网络；
所述神经网络提取图片序列特征，对所述图片序...

【专利技术属性】
技术研发人员：戴涛，孟广浩，夏树涛，江勇，查华，汪漪，
申请(专利权)人：鹏城实验室，清华大学深圳国际研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人