【技术实现步骤摘要】
一种基于半监督学习的文字识别方法
[0001]本专利技术涉及字符识别领域的相关问题,具体涉及一种基于半监督学习的文字识别方法。
技术介绍
[0002]目前针对字符识别主要有两种方法:基于传统算法的文本识别方法与基于深度学习的文本识别方法。基于深度学习的文本识别方法无论是准确率还是鲁棒性都大大优于基于传统算法的文本识别方法。但目前基于深度学习的文本识别的准确率非常依赖于大批量的训练样本,但是人为标注数据费时费力,导致基于深度学习的文本识别方法难以直接应用,需要花费大量精力去标注数据之后才有可能得到较好的识别结果。
技术实现思路
[0003]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于半监督学习的文字识别方法,以期通过无标注的真实数据即可得到较高的识别效果,从而提高识别效率和准确率。
[0004]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0005]本专利技术一种基于半监督学习的文字识别方法的特点在于,包括以下步骤:
[0006]步骤1:收集未标注的真实文本图片
【技术保护点】
【技术特征摘要】
1.一种基于半监督学习的文字识别方法,其特征在于,包括以下步骤:步骤1:收集未标注的真实文本图片集合,记为X
u
,收集另一标注后的文本图片集合,记为X
l
,并将对应的标签集合记为步骤2:构建半监督文字识别网络,包括四个模块,分别是编码模块Encoder,自注意力融合模块SA,解码模块Decoder,字频空间对齐模块FA;所述编码模块Encoder,包含:3a+1个卷积层,n个最大池化层,1个高度方向的自适应池化层;所述自注意力融合模块SA,包括:包含3个卷积层的特征变换模块、相关度计算模块、融合模块;所述解码模块Decoder,包括:一层1
×
1的卷积层,一个softmax激活函数;步骤3、运行半监督文字识别网络:步骤3.1、运行编码模块:将未标注的真实文本图片集合X
u
和另一标注后的文本图片集合X
l
中的每一张图片输入所述编码模块Encoder中,每经过a个卷积层后再经过一个池化层的下采样处理,从而在经过3a个卷积层以及下采样处理后,得到尺寸为的特征图F,其中,H和W是所输入的每一张图片的高与宽;所述特征图F通过高度方向的自适应池化层与一层卷积层处理后,得到形状为的二维特征序列S,其中,C为最后一层卷积层的卷积核数目;步骤3.2、运行自注意力融合模块:将所述二维特征序列S输入所述自注意力融合模块SA中,经过所述特征变换模块的3次卷积处理,得到3个变换之后的特征,记为Q、K、V;所述相关度计算模块计算特征Q与特征K之间的相关度sim=Q
·
K
T
;所述融合模块根据所述相关度sim进行特征融合,得到输出特征F
out
=softmax(sim)
·
V;步骤3.3、运行解码模块:将所述输出特征F
out
输入所述解码模块Dncoder中进行卷积处理并经过softmax激活函数后,将输出特征F
out
映射到类别空间中,得到长度L为的二维预测概率矩阵y={y1,y2,...,y
i
,...,y
【专利技术属性】
技术研发人员:汪增福,吴仕莲,
申请(专利权)人:中国科学院合肥物质科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。