一种基于字符移动任务的自监督文本识别方法技术

技术编号：35859574 阅读：23 留言：0更新日期：2022-12-07 10:48

本发明专利技术公开了一种基于字符移动任务的自监督文本识别方法，包括以下步骤：首先移动手写单词图像中的字符，然后预测字符移动的像素值，通过电子设备获得手写单词的图像，然后对单词图像进行数据增强和字符移动，再构建神经网络来进行预训练，分别是对同一张原图的不同数据增强的图像进行对比学习和对经过字符移动的图像进行分类，最后，文本识别模型读入预训练阶段的编码器参数来对手写单词图像及对应标签进行微调训练；本发明专利技术设计的字符移动任务通过辅助整词级别的对比学习可以有效地在预训练阶段学习到单词图像的特征表示，从而在网络微调阶段达到收敛速度更快和识别率更高的效果。的效果。的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字符移动任务的自监督文本识别方法

[0001]本专利技术属于模式识别与人工智能
，特别涉及一种基于字符移动任务的自监督文本识别方法。

技术介绍

[0002]文本识别对于各种纸质文档数字化具有重要意义。目前大多数的文本识别模型都是基于全监督的训练方法，这种方法依赖大量的标注数据，而数据的标注需要耗费大量的人力物力。同时，现在随着互联网技术的发展，数据的获取更加简单，数据的规模甚至可以达到万亿级。对于这些无标注数据，进行人工标注是不现实的，所以探索一种自监督的、无需使用人工标注的训练方式是非常必要的。
[0003]近几年随着各种深度学习技术的发展，基于对比学习的自监督学习方法在通用目标的检测和识别展现出了巨大的潜力。它通过将同一张图像的不同数据增强方式的图像进行对比学习来学习到通用目标的特征表示，从而可以加速下游任务的收敛速度，也可以达到少量的训练数据实现较好的任务效果。
[0004]目前，针对手写文本，基于对比学习的自监督学习方法SeqCLR方法(Aberdam A，Litman R，Tsiper S，et al.Sequence
‑
to
‑
sequence contrastive learning for text recognition[C].In：Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，2021.15302
‑r/>15312.)利用了文本的序列化组成的特点，在特征提取后加入了实例映射函数来使文本的特征向量序列化，然后进行对比学习来学习文本的特征表示。但是，SeqCLR方法在序列化过程中会存在对原始文本的过分割和欠分割的现象，所以这种序列化的方式其实是不够准确的。此外，SeqCLR方法也没有很好地利用原始的文本图像的独特先验知识。

技术实现思路

[0005]本专利技术的目的是为了有效利用深度网络模型的特征表示能力和手写文本图像的独特属性，学习文本图像数据样本的分布，从而实现了一种自监督文本识别方法。该方案具有加快下游任务收敛和提高识别准确性等特点，具有很高的使用价值。
[0006]本专利技术至少通过如下技术方案之一实现。
[0007]一种基于字符移动任务的自监督文本识别方法，包括以下步骤：
[0008](1)通过电子设备获取手写单词的图像；
[0009](2)对单词图像进行数据预处理；
[0010](3)对单词图像进行字符定位、字符选取和字符移动，然后确定字符移动的标签；
[0011](4)构建神经网络进行预训练，分别是对同一张原图的不同数据增强的图像进行对比学习和对经过字符移动的图像进行分类；
[0012](5)将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中，然后使用文本识别模型对手写单词图像及标签进行调整。
[0013]进一步地，使用能够手写输入的电子设备获得手写单词的灰度图像。
[0014]进一步地，所述步骤(2)的预处理是对原图I进行数据增强T(
·
)，包括仿射变换、笔画抖动、笔画覆盖和笔画粗细变化，其中各增强方式的相关参数每次在设置的范围内随机选取；在设置范围内随机选取一组参数t1，得到第一图像在设置范围内随机选取一组参数t2，得到第二图像然后对第一图像I
k
和第二图像I
q
进行图像大小调整，调整为H
×
W，其中H为图像高度，W为图像宽度；然后将第一图像I
k
归一化到[0，1]。
[0015]进一步地，所述步骤(3)的字符定位包括以下步骤：
[0016](311)对于第二图像I
q
，通过垂直投影得到垂直投影分布Sta；
[0017]首先对第二图像I
q
进行自适应二值化，然后归一化到[0，1]，这时文本所在的区域值为1，再进行行求和得到垂直投影分布Sta；
[0018](312)对于垂直投影分布Sta中小于数值m的数置零，其中m取Sta中倒数第二小的投影值，然后从垂直投影分布Sta中得到字符块区域集U＝{u1，u2，...，u
i
...，u
l
}，其中u
i
定义为字符块区域，即投影值非零的连续区域；l表示字符块区域数量。
[0019]进一步地，所述步骤(3)的字符选取包括以下步骤：
[0020](321)从字符块区域集U中随机选取两个位置loc
b
和loc
a
分别作为字符移动前所在位置和字符移动的目标位置，关于loc
b
和loc
a
的选取分为以下三种情况：
[0021]如果|U|＝0，说明没有字符块区域，令m为Sta中最小的投影值，返回步骤(312)继续求得字符块区域集U；
[0022]如果|U|＝1，说明只有一个字符块区域，即U＝u1，此时，从u1的前40％的位置h1和后40％的位置h2中各选取一个位置，然后再将这两个位置随机作为loc
b
和loc
a
；
[0023]如果|U|≥2，说明有两个及以上的字符块区域，此时，从U中随机选取两个字符块区域u
b
和u
a
分别作为字符所在的初始字符块区域和移动的目标字符块区域；然后从u
b
中随机选定一个位置作为loc
b
，从u
a
中随机选定一个位置作为loc
a
；
[0024](322)确定需要移动的字符宽度，最终选取出需要移动的字符图像；初始的需要移动的字符图像半宽设定为：
[0025][0026]其中W为第二图像I
q
的宽度；设定字符移动的目标位置loc
a
与图像边界的最小距离为border
a
，字符移动前所在位置loc
b
与图像边界的最小距离为border
b
，需要移动的字符图像的半宽为：
[0027]w
move
＝min(w
ini
，border
a
，border
b
)
ꢀꢀ
(1)
[0028]选取出需要移动的字符图像为：
[0029]img
b
＝I
q
[0：H，loc
b
‑
w
move
：loc
b
+w
move
][0030]其中H为第二图像I
q
的高度，w
move
为需要移动的字符图像的半宽。
[0031]进一步地，所述步骤(3)的字符移动包括以下步骤本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于字符移动任务的自监督文本识别方法，其特征在于，包括以下步骤：(1)通过电子设备获取手写单词的图像；(2)对单词图像进行数据预处理；(3)对单词图像进行字符定位、字符选取和字符移动，然后确定字符移动的标签；(4)构建神经网络进行预训练，分别是对同一张原图的不同数据增强的图像进行对比学习和对经过字符移动的图像进行分类；(5)将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中，然后使用文本识别模型对手写单词图像及标签进行训练。2.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法，其特征在于，使用能够手写输入的电子设备获得手写单词的灰度图像。3.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法，其特征在于，所述步骤(2)的预处理是对原图I进行数据增强T(
·
)，包括仿射变换、笔画抖动、笔画覆盖和笔画粗细变化，其中各增强方式的相关参数每次在设置的范围内随机选取；在设置范围内随机选取一组参数t1，得到第一图像在设置范围内随机选取一组参数t2，得到第二图像然后对第一图像I
k
和第二图像I
q
进行图像大小调整，调整为H
×
W，其中H为图像高度，W为图像宽度；然后将第一图像I
k
归一化到[0，1]。4.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法，其特征在于，所述步骤(3)的字符定位包括以下步骤：(311)对于第二图像I
q
，通过垂直投影得到垂直投影分布Sta；首先对第二图像I
q
进行自适应二值化，然后归一化到[0，1]，这时文本所在的区域值为1，再进行行求和得到垂直投影分布Sta；(312)对于垂直投影分布Sta中小于数值m的数置零，其中m取Sta中倒数第二小的投影值，然后从垂直投影分布Sta中得到字符块区域集U＝{u1，u2，...，u
i
...，u
l
}，其中u
i
定义为字符块区域，即投影值非零的连续区域；l表示字符块区域数量。5.根据权利要求4所述的一种基于字符移动任务的自监督文本识别方法，其特征在于，所述步骤(3)的字符选取包括以下步骤：(321)从字符块区域集U中随机选取两个位置loc
b
和loc
a
分别作为字符移动前所在位置和字符移动的目标位置，关于loc
b
和loc
a
的选取分为以下三种情况：如果|U|＝0，说明没有字符块区域，令m为Sta中最小的投影值，返回步骤(312)继续求得字符块区域集U；如果|U|＝1，说明只有一个字符块区域，即U＝u1，此时，从u1的前40％的位置h1和后40％的位置h2中各选取一个位置，然后再将这两个位置随机作为loc
b
和loc
a
；如果|U|≥2，说明有两个及以上的字符块区域，此时，从U中随机选取两个字符块区域u
b
和u
a
分别作为字符所在的初始字符块区域和移动的目标字符块区域；然后从u
b
中随机选定一个位置作为loc
b
，从u
a
中随机选定一个位置作为loc
a
；(322)确定需要移动的字符宽度，最终选取出需要移动的字符图像；初始的需要移动的字符图像半宽设定为：
其中W为第二图像I
q
的宽度；设定字符移动的目标位置loc
a
与图像边界的最小距离为border
a
，字符移动前所在位置loc
b
与图像边界的最小距离为border
b
，需要移动的字符图像的半宽为：w
move
＝min(w
ini
，border
a
，border
b
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)选取出需要移动的字符图像为：img
b
＝I
q
[0：H，loc
b
‑
w
move
：loc
b
+w
move
]其中H为第二图像I
q
的高度，w
move
为需要移动的字符图像的半宽。6.根据权利要求5所述的一种基于字符移动任务的自监督文本识别方法，其特征在于，所述步骤(3)的字符移动包括以下步骤：字符移动的目标位置原图片为：img

【专利技术属性】
技术研发人员：金连文，张晓怡，汪嘉鹏，薛洋，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人