文字识别模型的无监督训练方法及相关设备技术

技术编号:37248928 阅读:22 留言:0更新日期:2023-04-20 23:27
本发明专利技术实施例公开了一种文字识别模型的无监督训练方法及相关设备。该方法包括:获取原始图像,原始图像为包含文字的图像;对原始图像的部分像素进行掩码处理获得掩码图像,掩码图像包含像素被掩区域和像素未掩区域;将掩码图像输入神经网络模型,利用神经网络模型基于像素未掩区域具有的文字信息,预测像素被掩区域的文字信息,并获得预测结果,其中,文字信息为具有单个文字的部分结构的信息和/或若干完整文字的信息,或没有文字的信息;基于预测结果和所述原始图像,更新神经网络模型的参数。本发明专利技术解决了现有的无监督文字识别无法精细地学习单个文字的结构信息的技术问题。细地学习单个文字的结构信息的技术问题。细地学习单个文字的结构信息的技术问题。

【技术实现步骤摘要】
文字识别模型的无监督训练方法及相关设备


[0001]本专利技术涉及信息识别
,尤其涉及一种文字识别模型的无监督训练方法及相关设备。

技术介绍

[0002]近年来,深度学习已被广泛应用于图像分类、目标检测和分割等领域,随之也带来了数据标注成本高、耗费时间长等问题,如何利用好大量无标注数据进行自监督学习成了当前的研究热点。自监督学习能够从大规模的无标注数据集中挖掘自身的监督信息,并通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征信息。在计算机视觉应用领域,如图像分类、目标检测和分割等利用自监督对比学习表征信息的技术取得了显著成果。然而,由于文本序列的特殊性,自监督学习未能较好的应用在文本识别领域中。
[0003]目前大多数文本识别算法仍然依赖于全监督学习,需要大量带标签的数据进行建模。因此,在没有人工监督的条件下如何高效地学习基于序列性的文本信息表征是一个长期存在的问题,解决该问题可以发挥大规模无标注数据集的实际应用价值,基于此,现有的技术提出了一种基于对比学习的无监督文本识别方法,通过学习基于序列性的文本信息表征发挥大规模无标注数据集的实际应用价值。无监督文字识别目前采用的技术策略基本上是基于对比学习的方法,但在目前的技术框架下,无监督文字识别有待解决的问题如下:
[0004]基于对比学习的无监督文本识别方法通过对文字图像进行扩增来构建正负样本,然后通过拉近正样本特征距离,拉远负样本特征距离的方式学习到文本信息表征,但是该方式只对文本相似程度进行了建模,无法精细地学习单个文字的结构信息,如偏旁、部首等细节上的结构信息,同时忽略了整个文本串的上下文语义信息,无法高效地学习基于序列性的文本信息表征。
[0005]针对上述的问题,尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种文字识别模型的无监督训练方法及相关设备,以至少解决现有的无监督文字识别无法精细地学习单个文字的结构信息的技术问题。
[0007]根据本专利技术实施例的一个方面,提供了一种文字识别模型的无监督训练方法,包括:
[0008]获取原始图像,所述原始图像为包含文字的图像;
[0009]对所述原始图像的部分像素进行掩码处理获得掩码图像,所述掩码图像包含像素被掩区域和像素未掩区域;
[0010]将所述掩码图像输入神经网络模型,利用所述神经网络模型基于所述像素未掩区域具有的文字信息,预测所述像素被掩区域的文字信息,并获得预测结果,其中,所述文字信息为具有单个文字的部分结构的信息和/或若干完整文字的信息,或没有文字的信息;
[0011]基于所述预测结果和所述原始图像,更新所述神经网络模型的参数。
[0012]在其中的一些实施例中,所述神经网络模型包括特征聚合模块和像素预测模块,其中,将所述掩码图像输入神经网络模型之前,所述方法还包括:
[0013]将所述掩码图像切割成多个第一条状图像后,将多个所述第一条状图像输入所述神经网络模型,所述第一条状图像包括属于所述像素被掩区域的被掩条状图像和属于所述像素未掩区域的未掩条状图像;
[0014]则,利用所述神经网络模型基于所述像素未掩区域具有的文字信息,预测所述像素被掩区域的文字信息,并获得预测结果的步骤包括:
[0015]通过所述特征聚合模块确定所述未掩条状图像的图像全局特征,并将所述图像全局特征输入所述像素预测模块,所述图像全局特征包含上下文语义特征,所述上下文语义特征用于表述所述未掩条状图像具有的所述文字信息的上下文语义信息;
[0016]通过所述像素预测模块根据所述图像全局特征,预测所述被掩条状图像的像素预测值,以基于所述像素预测值和所述原始图像,更新所述神经网络模型的参数。
[0017]在其中的一些实施例中,基于所述像素预测值和所述原始图像,更新所述神经网络模型的参数的步骤包括:
[0018]根据所述像素预测值,对所述掩码图像中所述像素被掩区域的像素进行重建处理,获得重建图像;
[0019]确定所述原始图像和所述重建图像之间的像素相似程度;
[0020]根据所述像素相似程度,更新所述神经网络模型的参数。
[0021]在其中的一些实施例中,所述神经网络模型还包括标签预测模块,其中,更新所述神经网络模型的参数之前,所述方法还包括:
[0022]将所述未掩条状图像的所述图像全局特征输入所述标签预测模块,所述图像全局特征包含所述上下文语义特征;
[0023]通过所述标签预测模块根据所述上下文语义特征,预测所述被掩条状图像中具有的文字信息的类别标签,以获得类别预测标签,其中,所述类别标签为对所述文字信息按预设的分类规则进行分类后确定的用于标记所述文字信息所属类别的标签;
[0024]基于所述掩码图像的切割位置和切割数量,将所述原始图像对应切割成多个第二条状图像,并确定每个所述第二条状图像具有的文字信息的类别真实标签,则,每个所述被掩条状图像均对应有一个所述类别真实标签,以基于每个所述被掩条状图像的所述类别预测标签和所述类别真实标签,更新所述神经网络模型的参数。
[0025]在其中的一些实施例中,基于每个所述被掩条状图像的所述类别预测标签和所述类别真实标签,更新所述神经网络模型的参数的步骤包括:
[0026]确定每个所述被掩条状图像的所述类别预测标签与所述类别真实标签之间的标签相似程度;
[0027]根据所述标签相似程度,更新所述神经网络模型的参数。
[0028]在其中的一些实施例中,所述神经网络模型还包括特征提取模块,其中,通过所述特征聚合模块确定所述未掩条状图像的图像全局特征之前,所述方法还包括:
[0029]通过所述特征提取模块提取每个所述第一条状图像的第一图像特征,所述第一图像特征为包含所述第一条状图像具有的所述文字信息的特征;
[0030]则,通过所述特征聚合模块确定所述未掩条状图像的图像全局特征的步骤包括:
[0031]将所述第一图像特征输入所述特征聚合模块;
[0032]通过所述特征聚合模块对所述文字信息进行聚合处理,确定每个所述第一条状图像具有的所述文字信息的所述上下文语义信息,以获得所述未掩条状图像的所述图像全局特征。
[0033]在其中的一些实施例中,所述神经网络模型还包括文本预测模块,对所述原始图像的部分像素进行掩码处理获得掩码图像时,所述方法还包括:
[0034]根据所述原始图像具有的文字生成原始文本,并对所述原始文本中的部分文字进行掩码处理,获得掩码文本;
[0035]则更新所述神经网络模型的参数之前,所述方法还包括:
[0036]将所述掩码文本输入所述神经网络模型,通过所述文本预测模块根据所述掩码文本中未被掩码的文字,预测所述掩码文本中被掩码的文字,并获得文字预测结果,以基于所述原始文本和所述文字预测结果,更新所述神经网络模型的参数。
[0037]在其中的一些实施例中,通过所述文本预测模块根据所述掩码文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字识别模型的无监督训练方法,其特征在于,包括:获取原始图像,所述原始图像为包含文字的图像;对所述原始图像的部分像素进行掩码处理获得掩码图像,所述掩码图像包含像素被掩区域和像素未掩区域;将所述掩码图像输入神经网络模型,利用所述神经网络模型基于所述像素未掩区域具有的文字信息,预测所述像素被掩区域的文字信息,并获得预测结果,其中,所述文字信息为具有单个文字的部分结构的信息和/或若干完整文字的信息,或没有文字的信息;基于所述预测结果和所述原始图像,更新所述神经网络模型的参数。2.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括特征聚合模块和像素预测模块,其中,将所述掩码图像输入神经网络模型之前,所述方法还包括:将所述掩码图像切割成多个第一条状图像后,将多个所述第一条状图像输入所述神经网络模型,所述第一条状图像包括属于所述像素被掩区域的被掩条状图像和属于所述像素未掩区域的未掩条状图像;则,利用所述神经网络模型基于所述像素未掩区域具有的文字信息,预测所述像素被掩区域的文字信息,并获得预测结果的步骤包括:通过所述特征聚合模块确定所述未掩条状图像的图像全局特征,并将所述图像全局特征输入所述像素预测模块,所述图像全局特征包含上下文语义特征,所述上下文语义特征用于表述所述未掩条状图像具有的所述文字信息的上下文语义信息;通过所述像素预测模块根据所述图像全局特征,预测所述被掩条状图像的像素预测值,以基于所述像素预测值和所述原始图像,更新所述神经网络模型的参数。3.根据权利要求2所述的方法,其特征在于,基于所述像素预测值和所述原始图像,更新所述神经网络模型的参数的步骤包括:根据所述像素预测值,对所述掩码图像中所述像素被掩区域的像素进行重建处理,获得重建图像;确定所述原始图像和所述重建图像之间的像素相似程度;根据所述像素相似程度,更新所述神经网络模型的参数。4.根据权利要求2所述的方法,其特征在于,所述神经网络模型还包括标签预测模块,其中,更新所述神经网络模型的参数之前,所述方法还包括:将所述未掩条状图像的所述图像全局特征输入所述标签预测模块,所述图像全局特征包含所述上下文语义特征;通过所述标签预测模块根据所述上下文语义特征,预测所述被掩条状图像中具有的文字信息的类别标签,以获得类别预测标签,其中,所述类别标签为对所述文字信息按预设的分类规则进行分类后确定的用于标记所述文字信息所属类别的标签;基于所述掩码图像的切割位置和切割数量,将所述原始图像对应切割成多个第二条状图像,并确定每个所述第二条状图像具有的文字信息的类别真实标签,则,每个所述被掩条状图像均对应有一个所述类别真实标签,以基于每个所述被掩条状图像的所述类别预测标签和所述类别真实标签,更新所述神经网络模型的参数。5.根据权利要求4所述的方法,其特征在于,基于每个所述被掩条状图像的所述类别预测标签和所述类别真实标签,更新所述神经网络模型的参数的步骤包括:
确定每个所述被掩条状图像的所述类别预测标签与所述类别真实标签之间的标签相似程度;根据所述标签相似程度,更新所述神经网络模型的参数。6.根据权利要求4所述的方法,其特征在于,所述神经网络模型还包括特征提取模块,其中,通过所述特征聚合模块确定所述未掩条状图像的图像全局特征之前,所述方法还包括:通过所述特征提取模块提取每个所述第一条状图像的第一图像特征,所述第一图像特征为包含所述第一条状图像具有的所述文字信息的特征;则,通过所述特征聚合模块确定所述未掩条状图像的图像全局特征的步骤包括:将所述第一图像特征输入所述特征聚合模块;通过所述特征聚合模块对所述文字信息进行聚合处理,确定每个所述第一条状图像具有的所述文字信息的所述上下文语义信息,以获得所述未掩条状图像的所述图像全局特征。7.根据权利要求6所述的方法,其特征在于,所述神经网络模型还包括文本预测模块,对所述原始图像的部分像素进行掩码处理获得掩码图像时,所述方法还包括:根据所述原始图像具有的文字生成原始文本,并对所述原始文本中的部分文字进行掩码处理,获得掩码文本;则更新所述神经网络模型的参数之...

【专利技术属性】
技术研发人员:陈颖乔梁
申请(专利权)人:上海高德威智能交通系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1