文本识别模型的训练方法、文本识别方法及装置制造方法及图纸

技术编号:33251134 阅读:15 留言:0更新日期:2022-04-27 18:13
本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。性和可靠性。性和可靠性。

【技术实现步骤摘要】
文本识别模型的训练方法、文本识别方法及装置


[0001]本公开涉及人工智能(Artificial Intelligence,AI)
,具体为深度学习、计算机视觉
,可应用于光学字符识别(Optical Character Recognition,OCR)等场景,尤其涉及一种文本识别模型的训练方法、文本识别方法及装置。

技术介绍

[0002]OCR技术在教育、金融、医疗、交通和保险等各行各业都取到了广泛的关注和应用。
[0003]在相关技术中,可以结合OCR技术和深度学习构建文本识别模型,以基于文本识别模型对图像进行文本识别。
[0004]然而,文本识别模型通常依赖于视觉信息,以基于视觉信息辨别图像中的文本内容,存在识别的准确性偏低的弊端。

技术实现思路

[0005]本公开提供了一种用于提高文本识别的可靠性的文本识别模型的训练方法、文本识别方法及装置。
[0006]根据本公开的第一方面,提供了一种文本识别模型的训练方法,包括:对获取到的第一样本图像中的部分图像进行掩码预测,得到与所述第一样本图像对应的预测完整图像;对获取到的第二样本图像中的部分文本进行所述掩码预测,得到与所述部分文本对应的预测文本内容;根据所述预测完整图像和所述预测文本内容训练得到预训练模型,并根据所述预训练模型生成文本识别模型,其中,所述文本识别模型用于对待识别图像进行文本识别。
[0007]根据本公开的第二方面,提供了一种文本识别方法,包括:获取待识别图像,其中,所述待识别图像中包括文本;基于预先训练的文本识别模型对所述待识别图像进行文本识别,得到所述待识别图像中的文本内容;其中,所述文本识别模型是基于如第一方面所述的方法得到的。
[0008]根据本公开的第三方面,提供了一种文本识别模型的训练装置,包括:预测单元,用于对获取到的第一样本图像中的部分图像进行掩码预测,得到与所述第一样本图像对应的预测完整图像;所述预测单元还用于,对获取到的第二样本图像中的部分文本进行所述掩码预测,得到与所述部分文本对应的预测文本内容;训练单元,用于根据所述预测完整图像和所述预测文本内容训练得到预训练模型;生成单元,用于根据所述预训练模型生成文本识别模型,其中,所述文本识别模型用于对待识别图像进行文本识别。
[0009]根据本公开的第四方面,提供了一种文本识别装置,包括:获取单元,用于获取待识别图像,其中,所述待识别图像中包括文本;识别单元,用于基于预先训练的文本识别模型对所述待识别图像进行文本识别,得到所述待识别图像中的文本内容;其中,所述文本识别模型是基于如第一方面所述的方法得到的。
[0010]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面所述的方法。
[0011]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或第二方面所述的方法。
[0012]根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。
[0013]根据本公开的基于掩码预测得到第一样本图像对应的预测完整图像,基于掩码预测得到第二样本图像中的部分文本的预测文本内容,并结合预测完整图像和预测文本内容生成预训练模型,以基于预训练模型生成文本识别模型的技术方案,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开第一实施例的示意图;图2是根据本公开第二实施例的示意图;图3是根据本公开第三实施例的示意图;图4是根据本公开第四实施例的示意图;图5是根据本公开第五实施例的示意图;图6是根据本公开第六实施例的示意图;图7是根据本公开第七实施例的示意图;图8是根据本公开第八实施例的示意图;图9是根据本公开第九实施例的示意图;图10是用来实现本公开实施例的文本识别模型的训练方法、文本识别方法的电子设备的框图。
具体实施方式
[0016]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0017]在结合OCR技术和深度学习构建文本识别模型时,可以采用“模块分离”的方式实现,也可以采用“端到端模型”的方式。
[0018]示例性的,“模块分离”的方式是指,构建文本检测模块、信息抽取模块、文本识别模块,以结合三个模块构建文本识别模型。
[0019]若采用“模块分离”的方式,需要预先构建各模块,并将各模块进行结合,过程相对繁琐,效率相对偏低,且准确性会累积叠加,造成基于该方式构建的文本识别模型的识别准确性偏低的弊端。
[0020]示例性的,“端到端模型”的方式是指,从输入端到输出端会得到一个预测结果,如在输入端输入图像,在输出端对得到图像的预测文本内容。
[0021]然而,采用“端到端模型”的方式需要进行数据标注,如对图像的真实文本内容进行标注,且用于提供训练的数据比较有效,导致训练得到的文本识别模型的可靠性偏低的弊端。
[0022]且基于上述任一方法训练得到的文本识别模型,通常只做二类判断,不同的垂类有不同类别字段需求的时候,需要重新设计文本识别模型,尤其是分类的通道数,文本识别模型也要重新训练,无法复用。
[0023]例如,OCR技术中的图像文字检测模型(EAST)、分割的文字检测模型(DB)、和文本检测器(LOMO)等,一般只能用作两类判断,如文档(text)类和非文档类(non

text)。若需要解决某个具体垂类下用户感兴趣的字段的识别需求,需要增加分类类别数。
[0024]在一些实施例中,可以通过检测扩增类别的方式,训练得到新的文本识别模型,如可以通过在原有文本识别模型的基础上,附加额外的语言模型做字段分类。
[0025]例如,若文本识别模型为OCR技术中的端到端文本检测与识别(FOTS)和文本检测加识别模型(Mask Text Spotter),则需本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法,其特征在于,包括:对获取到的第一样本图像中的部分图像进行掩码预测,得到与所述第一样本图像对应的预测完整图像;对获取到的第二样本图像中的部分文本进行所述掩码预测,得到与所述部分文本对应的预测文本内容;根据所述预测完整图像和所述预测文本内容训练得到预训练模型,并根据所述预训练模型生成文本识别模型,其中,所述文本识别模型用于对待识别图像进行文本识别。2.根据权利要求1所述的方法,其中,所述掩码预测包括:随机遮盖目标对象中的部分对象;根据所述目标对象中未被遮盖的对象,对所述目标对象中被遮盖的部分对象进行预测,得到预测结果;其中,若所述目标对象为第一样本图像,则所述目标对象中的部分对象为部分图像,所述预测结果为所述预测完整图像;若所述目标对象为第二样本图像,则所述目标对象中的部分对象为部分文本,所述预测结果为所述预测文本内容。3.根据权利要求2所述的方法,其中,根据所述目标对象中未被遮盖的对象,对所述目标对象中被遮盖的部分对象进行预测,得到预测结果,包括:提取所述目标对象中未被遮盖的对象对应的对象特征,得到第一对象特征;根据所述第一对象特征,对所述目标对象中被遮盖的部分对象进行预测,得到所述预测结果;其中,若所述目标对象为第一样本图像,则所述第一对象特征为第一视觉特征;若所述目标对象为第二样本图像,则所述第一对象特征为第一语义特征。4.根据权利要求3所述的方法,其中,所述目标对象为第一样本图像,所述第一对象特征为第一视觉特征;所述根据所述第一对象特征,对所述目标对象中被遮盖的部分对象进行预测,得到所述预测结果,包括根据所述第一视觉特征,预测所述第一样本图像中被遮盖的部分图像对应的视觉特征,得到第二视觉特征;根据所述第二视觉特征,确定所述第一样本图像中被遮盖的部分图像;根据所述第一样本图像中未被遮盖的图像、以及确定出的所述第一样本图像中被遮盖的部分图像,生成所述预测完整图像。5.根据权利要求3或4所述的方法,其中,所述目标对象为第二样本图像,所述第一对象特征为第一语义特征;所述根据所述第一对象特征,对所述目标对象中被遮盖的部分对象进行预测,得到所述预测结果,包括:根据所述第一语义特征,预测所述第二样本图像中被遮盖的部分文本对应的语义特征,得到第二语义特征;根据所述第二语义特征,生成所述预测文本内容。6.根据权利要求1

4任一项所述的方法,其中,根据所述预训练模型生成文本识别模型,包括:获取待识别任务和训练图像,其中,所述训练图像中包括文本;根据所述待识别任务和所述训练图像,对所述预训练模型进行训练,得到所述文本识
别模型。7.根据权利要求6所述的方法,其中,根据所述待识别任务和所述训练图像,对所述预训练模型进行训练,得到所述文本识别模型,包括:将所述训练图像输入至所述预训练模型,得到所述训练图像对应的多模态特征图;根据所述待识别任务和所述多模态特征图,生成所述文本识别模型。8.根据权利要求7所述的方法,其中,根据所述待识别任务和所述多模态特征图,生成所述文本识别模型,包括:根据所述多模态特征图,预测所述训练图像在所述待识别任务下的预测识别结果;根据所述训练图像预设的真实识别结果、以及所述预测识别结果,构建所述文本识别模型。9.一种文本识别方法,其特征在于,包括:获取待识别图像,其中,所述待识别图像中包括文本;基于预先训练的文本识别模型对所述待识别图像进行文本识别,得到所述待识别图像中的文本内容;其中,所述文本识别模型是基于如权利要求1

8任一项所述的方法得到的。10.根据权利要求9所述的方法,其中,基于预先训练的文本识别模型对所述待识别图像进行文本识别,得到所述待识别图像中的文本内容,包括:根据所述文本识别模型确定所述待识别图像的多模态特征图,并根据所述多模态特征图确定所述待识别图像中的文本内容;其中,所述待识别图像的多模态特征图用于表征:所述待识别图像的视觉特征和语义特征。11.一种文本识别模型的训练装置,其特征在于,包括:预测单元,用于对获取到的第一样本图像中的部分图像进行掩码预测,得到与所述第一样本图像对应的预测完整图像;所述预测单元还用于,对获取到的第二样本图像中的部分文本进行所述掩码预测,得到与所述部分文本对应的预测文本内容;训练单元,用于根据所述预测完整...

【专利技术属性】
技术研发人员:章成全庾悦晨李煜林曹健健钦夏孟姚锟韩钧宇刘经拓丁二锐王井东
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1