文字检测模型预训练方法以及装置制造方法及图纸

技术编号:33503908 阅读:23 留言:0更新日期:2022-05-19 01:13
本说明书实施例提供一种文字检测模型预训练方法以及装置,所述方法包括:将文字样本输入文本编码器得到文字特征,以及将图像样本输入图像编码器得到图像特征,其中,文字样本从图像样本提取得到;根据数据字典和图像特征确定图像样本是否包含文字样本,得到文字包含结果,其中数据字典包括文字样本;根据文字特征和图像特征确定文字样本和图像样本的对应关系,得到图文对应结果;根据文字特征和图像特征预测被掩盖的文字样本,得到文字预测结果;根据包含结果、图文对应结果和文字预测结果,对图像编码器进行参数调整,得到预训练文字检测模型。通过使得视觉表征具备了语义知识,规避了由于语义知识不足而产生的成行成列歧义等问题。歧义等问题。歧义等问题。

【技术实现步骤摘要】
文字检测模型预训练方法以及装置


[0001]本说明书实施例涉及模型训练
,特别涉及一种文字检测模型预训练方法。

技术介绍

[0002]随着个人的消费级电子产品(数码相机、手机等)的迅速发展,金融、物流、医疗、教育等各行业的数字化、信息化浪潮的快速推动,从多模态的视觉信号(如文档图像、卡证图片、街景视频等)中提取文字信息的光学字符识别(OCR)技术获得了广泛的应用。而随着深度学习时代的到来,OCR 技术也逐渐地从简单的扫描文档字符识别,跨入了开始解决广泛场景中复杂文字分布、艺术字、表格文字甚至手写公式等复杂文字场景的时代。泛OCR技术通常分为文字检测,文字识别,版式理解三个阶段。在文字检测阶段,需要基于深度学习和训练数据训练文字检测模型,将图片中的文字行区域定位出来。传统的文字检测方法基于数据驱动的方式,学习文字字符的视觉特征和文字成行的视觉特征(如字符间距,字体、字号相似性等)进而将文字以行的粒度检测出来。然而,从复杂文字版式中提取字符,很多时候涉及到对文字内容语义的理解(尤其是涉及行列歧义、宽距单词等中文场景中),不能简单地通过字符之间本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文字检测模型预训练方法,包括:将文字样本输入文本编码器得到文字特征,以及将图像样本输入图像编码器得到图像特征,其中,所述文字样本与所述图像样本相对应;根据数据字典和所述图像特征确定所述图像样本是否包含所述文字样本,得到文字包含结果,其中所述数据字典包括所述文字样本;根据所述文字特征和所述图像特征确定所述文字样本和所述图像样本的对应关系,得到图文对应结果;根据所述文字特征和所述图像特征预测被掩盖的文字样本,得到文字预测结果;根据所述包含结果、所述图文对应结果和所述文字预测结果,对所述图像编码器进行参数调整,得到预训练文字检测模型。2.根据权利要求1所述的方法,所述将图像样本输入图像编码器得到图像特征,包括:将图像样本依次通过残差网络层、特征金字塔层和注意力池化层,得到所述图像特征。3.根据权利要求1所述的方法,在根据所述数据字典和所述图像特征确定所述图像样本是否包含所述文字样本之前,还包括:根据所述文字样本,确定与所述文字样本相似的文字负样本;根据所述文字样本和所述文字负样本确定所述数据字典。4.根据权利要求3所述的方法,所述根据所述数据字典和所述图像特征确定所述图像样本是否包含所述文字样本,得到文字包含结果,包括:根据所述数据字典中的字典文字样本生成字典文字样本特征;根据所述字典文字样本特征与所述图像特征进行比对,得到所述文字包含结果。5.根据权利要求1所述的方法,所述根据所述文字特征和所述图像特征确定所述文字样本和所述图像样本的对应关系,包括:将每一个所述文字特征与所有图片特征进行比对,确定所述文字样本和所述图像样本的对应关系。6.根据权利要求5所述的方法,所述根据所述文字特征和所述图像特征确定所述文字样本和所述图像样本的对应关系,包括:将每一个所述图像特征与所有文字特征进行比对,确定所述文字样本和所述图像样本的对应关系。7.根据权利要求1所述的方法,所述根据所述文字特征和所述图像特征预测被掩盖的文字样本,包括:将所述文字特征根据预设规则进行掩盖得到部分文字特征;根据所述部分文字特征和所述图像特征得到所述被掩盖的文字样本。8.根据权利要求7所述的方法, 所述根据所述部分文字特征和所述图像特征得到所述被掩盖的文字样本,包括:将所述部分文字特征和所述图像特征输入交叉解码器,得到所述部分文字特征对应的文字样本、和所述被掩盖的文字样本,其中,所述交叉解码器包括多头自注意力模块、多头交...

【专利技术属性】
技术研发人员:宋思博万建强杨志博姚聪
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1