文字识别模型训练、文字识别方法、装置、设备及介质制造方法及图纸

技术编号:36201359 阅读:26 留言:0更新日期:2023-01-04 11:55
本公开提供了一种文字识别模型训练、文字识别方法、装置、设备及介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于文字检测识别技术等场景。具体实现方案为:将无标签的训练样本分割为至少两个子样本图像;将至少两个子样本图像划分至第一训练集合和第二训练集合;所述第一训练集合包括具有可见属性的第一子样本图像,所述第二训练集合包括具有不可见属性的第二子样本图像;以所述第二训练集合作为所述第一训练集合的标签,对待训练编码器执行自监督训练,得到目标编码器。到目标编码器。到目标编码器。

【技术实现步骤摘要】
文字识别模型训练、文字识别方法、装置、设备及介质


[0001]本公开涉及人工智能
,具体为深度学习、图像处理、计算机视觉
,可应用于文字检测识别技术等场景,尤其涉及一种文字识别模型训练、文字识别方法、装置、设备及介质。

技术介绍

[0002]目前,自然场景下的OCR(optical character recognition,光学文字识别)技术具备广泛的应用基础。文字检测识别技术一般需要对文字识别模型进行训练,然后利用训练获得的文字识别模型对输入的图像进行文字识别。
[0003]但是,文字识别模型一般采用有监督训练的方式,有监督的训练方式仅能学习到少量有标签图像的特征,获得的识别模型对图像的文字识别准确率的提升不高。

技术实现思路

[0004]本公开提供了一种文字识别模型训练、文字识别方法、装置、设备及介质。
[0005]根据本公开的第一方面,提供了一种文字识别模型训练方法,包括:将无标签的训练样本分割为至少两个子样本图像;将至少两个子样本图像划分至第一训练集合和第二训练集合;所述第一训练集合包括具有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文字识别模型训练方法,包括:将无标签的训练样本分割为至少两个子样本图像;将至少两个所述子样本图像划分至第一训练集合和第二训练集合;所述第一训练集合包括具有可见属性的第一子样本图像,所述第二训练集合包括具有不可见属性的第二子样本图像;以所述第二训练集合作为所述第一训练集合的标签,对待训练编码器执行自监督训练,得到目标编码器。2.根据权利要求1所述的方法,其中,所述以所述第二训练集合作为所述第一训练集合的标签,对待训练编码器执行自监督训练,得到目标编码器,包括:初始化所述待训练编码器,得到第一编码器;基于所述第一编码器,提取所述第一训练集合中第一子样本图像的第一视觉特征和所述第一训练集合中第二子样本图像的第二视觉特征;对所述第一视觉特征进行掩码查询计算,获得第三视觉特征;根据所述第三视觉特征与所述第二视觉特征的特征误差,更新所述第一编码器,直至所述特征误差满足第一误差条件,确定最后更新的第一编码器为目标编码器。3.根据权利要求2所述的方法,其中,所述根据所述第三视觉特征与所述第二视觉特征的特征误差,更新所述第一编码器,直至所述特征误差满足第一误差条件,确定最后更新的第一编码器为目标编码器,包括:初始化待训练解码器,得到第一解码器;基于所述第一解码器,确定对所述第三视觉特征执行图像重建产生的图像误差;确定所述第三视觉特征与所述第二视觉特征的特征误差;基于所述特征误差和所述图像误差,更新所述第一编码器并基于所述图像误差更新所述第一解码器,直至所述特征误差满足所述第一误差条件且所述图像误差满足第二误差条件,确定最后获得的第一编码器为目标编码器。4.根据权利要求3所述的方法,其中,所述基于所述第一解码器,确定对所述第三视觉特征执行图像重建产生的图像误差,包括:利用所述第一解码器对所述第三视觉特征进行解码计算处理,获得第一解码特征;根据所述第一解码特征的图像重建结果,得到所述图像误差。5.根据权利要求3所述的方法,其中,所述根据所述第一解码特征的图像重建结果,得到所述图像误差,包括:对所述第一解码特征进行图像重建处理,获得第一预测结果;利用所述第二子样本特征和所述第一预测结果进行图像误差计算,获得所述图像误差。6.根据权利要求2

5任一项所述的方法,还包括:基于掩码设置策略,将至少两个查询向量划分为第一查询向量和第二查询向量;所述掩码设置策略包括基于预设第一掩码率生成的掩码数据;所述查询向量为基础字符串对应的空间变换向量;所述对所述第一视觉特征进行掩码查询计算,获得第三视觉特征,包括:基于所述第二查询向量和所述第一视觉特征的特征预测计算,得到所述第一视觉特征
在所述第二查询向量的出现概率所对应的特征向量;将所述第一视觉特征对应的特征向量进行向量组合,得到所述第三视觉特征。7.根据权利要求1所述的方法,其中,所述将至少两个子样本图像划分至第一训练集合和第二训练集合,包括:利用掩码设置策略,将至少两个所述子样本图像划分至第一训练集合和第二训练集合。8.一种文字识别模型训练方法,包括:将合成样本分割为至少两个子合成图像;所述合成样本包括合成文本标签;将至少两个所述子合成图像划分为第一合成集合和第二合成集合;所述第一合成集合包括具有可见属性的第一子合成图像,所述第二合成集合包括具有不可见属性的第二子合成图像;基于所述第一合成集合和所述第二合成集合,对待训练解码器执行有监督训练,获得所述待训练解码器对应的目标解码器。9.根据权利要求8所述的方法,其中,所述基于所述第一合成集合和所述第二合成集合,对待训练解码器执行有监督训练,获得所述待训练解码器对应的目标解码器,包括:基于目标编码器提取所述第一合成集合中第一子合成图像的第一特征序列;所述目标编码器基于权利要求1

7任一项所述的文字识别模型训练方法训练获得;根据所述第二合成集合中的第二子合成图像在所述合成样本中的图像位置,对所述第一特征序列进行特征补齐,获得第二特征序列;以待训练解码器对所述第二特征序列的预测文本与所述第二子合成图像在所述合成文本标签中的合成文本相同为训练目标,训练获得所述待训练解码器对应的目标解码器。10.根据权利要求9所述的方法,其中,所述以待训练解码器对所述第二特征序列的预测文本与所述第二子合成图像在所述合成文本标签中的合成文本相同为训练目标,训练获得所述待训练解码器对应的目标解码器,包括:初始化所述待训练解码器,获得第二解码器;基于所述第二解码器确定所述第二特征序列的预测文本;利用所述预测文本与所述第二子合成图像在所述合成文本标签中的合成文本进行文本误差计算,获得解码误差;根据所述解码误差更新所述第二解码器,直至所述解码误差满足第三误差条件,确定最后获得的所述第二解码器为所述目标解码器。11.根据权利要求10所述的方法,其中,所述基于所述第二解码器确定所述第二特征序列的预测文本,包括:基于所述第二子合成图像,获得以令牌形式存储的第三查询向量;将所述第三查询向量和所述第二特征序列输入所述第二解码器,获得第二解码特征;基于所述第二解码特征的文本识别处理,得到所述第二特征序列的预测文本。12.根据权利要求11所述的方法,其中,所述基于所述第二子合成图像,获得以令牌形式存储的第三查询向量,包括:提取所述第二子合成图像的特征;基于令牌生成算法,将所述第二子合成图像的特征转换为令牌形式,获得所述第三查
询向量。13.根据权利要求9

12任一项所述的方法,其中,所述根据所述第二合成集合中的第二子合成图像在所述合成样本中的图像位置,对所述第一特征序列进行特征补齐,获得第二特征序列,包括:根据所述第二子合成图像在所述合成样本中的图像位置,确定所述第二子合成图像在所述合成样本对应合成序列中的序列位置;将所述第一特征序列中在所述序列位置插入补齐向量,获得所述第二特征序列。14.根据权利要求8所述的方法,其中,所述将至少两个所述子合成图像划分为第一合成集合和第二合成集合,包括:基于掩码合成策略,将至少两个所述子合成图像划分为所述第一合成集合和所述第二合成集合;所述掩码合成策略包括基于预设第二掩码率生成的掩码数据。15.一种文字识别方法,包括:确定目标编码器和目标解码器;所述目标编码器基于权利要求1

7任一项所述的文字识别模型训练方法训练获得,所述目标解码器基于权利要求8

14任一项所述的方法文字识别模型训练方法训练获得;将待识别图像分割为至少两个子图像;基于所述目标编码器提取所述子图像的图像特征,获得至少两个所述子图像分别对应的图像特征;基于所述目标解码器和至少两个查询向量,对至少两个所述子图像分别对应的图像特征进行解码计算,获得至少两个所述子图像对应的解码特征序列;根据所述解码特征序列,得到所述待识别图像的目标文本。16.一种文字识别模型训练装置,包括:第一分割单元,用于将无标签的训练样本分割为至少两个子样本图像;第一划分单元,用于将至少两个所述子样本图像划分至第一训练集合和第二训练集合;所述第一训练集合包括具有可...

【专利技术属性】
技术研发人员:吕鹏原章成全刘珊珊乔美娜徐杨柳吴亮王晓燕姚锟韩钧宇丁二锐王井东吴甜王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1