文本识别模型框架的训练方法、装置及系统制造方法及图纸

技术编号:30647228 阅读:15 留言:0更新日期:2021-11-04 00:57
本公开提供了一种文本识别模型框架的训练方法、装置及系统,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。包括:基于预设的文本检测模型对样本图像进行特征处理,得到与样本图像中文本信息相关的至少两种特征信息,基于预设的特征融合模型对样本图像的至少两种特征信息进行融合处理,得到样本图像的融合特征,将融合特征输入至特征融合模型,基于融合特征模型对文本检测模型和特征融合模型的参数分别进行调整,得到文本识别模型框架,文本识别模型框架中的文本检测模型与特征融合模型之间具有较高的关联性,从而实现了训练过程的完整性和全面性,提高了文本识别模型框架的准确性和可靠性。准确性和可靠性。准确性和可靠性。

【技术实现步骤摘要】
文本识别模型框架的训练方法、装置及系统


[0001]本公开涉及人工智能
,具体为计算机视觉和深度学习
,尤其涉及一种文本识别模型框架的训练方法、装置及系统,可应用于智慧城市和智慧金融场景。

技术介绍

[0002]随着人工智能技术的发展,对图像中的文本信息的识别由人工识别发展为了自动识别,如预先训练用于辅助训练文本识别模型的文本识别模型框架(也可以称为用于辅助训练文本识别模型的结构化解析框架模型),在该结构化框架模型的基础上,训练生成用于对待识别的图像中的文本信息进行识别的文本识别模型。
[0003]在现有技术中,通常基于文本检测模型和特征融合模型训练得到文本识别模型框架,其中,文本检测模型与特征融合模型为两个相互独立的模型,特征融合模型具体基于文本检测模型的线下识别结果完成训练。
[0004]然而,文本检测模型与特征融合模型二者在训练过程中相互独立,可能导致训练得到的文本识别模型框架的准确性偏低的技术问题。

技术实现思路

[0005]本公开提供了一种用于提高文本识别模型框架的准确性的文本识别模型框架的训练方法及装置。
[0006]根据本公开的第一方面,提供了一种文本识别模型框架的训练方法,所述方法包括:
[0007]基于预设的文本检测模型对样本图像进行特征处理,得到与所述样本图像中文本信息相关的至少两种特征信息;
[0008]基于预设的特征融合模型对所述样本图像的至少两种特征信息进行融合处理,得到所述样本图像的融合特征;
[0009]将所述融合特征输入至所述特征融合模型,基于所述融合特征模型对所述文本检测模型和所述特征融合模型的参数分别进行调整,得到文本识别模型框架,其中,所述文本识别模型框架中包括调整后的文本检测模型和调整后的特征融合模型。
[0010]根据本公开的第二方面,提供了一种文本识别方法,包括:
[0011]获取待识别图像;
[0012]将所述待识别图像输入至预先训练的文本识别模型,得到所述待识别图像中的文本信息,其中,所述文本识别模型是基于预先训练的文本识别模型框架对待训练图像进行训练生成的,所述文本识别模型框架为由第一方面所述训练方法训练获得,所述待训练图像中包括文本信息。
[0013]根据本公开的第三方面,提供了一种文本识别模型框架的训练装置,所述装置包括:
[0014]处理单元,用于基于预设的文本检测模型对样本图像进行特征处理,得到与所述
样本图像中文本信息相关的至少两种特征信息;
[0015]融合单元,用于基于预设的特征融合模型对所述样本图像的至少两种特征信息进行融合处理,得到所述样本图像的融合特征;
[0016]训练单元,用于将所述融合特征输入至所述特征融合模型,基于所述融合特征模型对所述文本检测模型和所述特征融合模型的参数分别进行调整,得到文本识别模型框架,其中,所述文本识别模型框架中包括调整后的文本检测模型和调整后的特征融合模型。
[0017]根据本公开的第四方面,提供了一种文本识别装置,包括:
[0018]获取单元,用于获取待识别图像;
[0019]识别单元,用于将所述待识别图像输入至预先训练的文本识别模型,得到所述待识别图像中的文本信息,其中,所述文本识别模型是基于预先训练的文本识别模型框架对待训练图像进行训练生成的,所述文本识别模型框架为由第一方面训练方法训练获得,所述待训练图像中包括文本信息。
[0020]根据本公开的第五方面,提供了一种电子设备,包括:
[0021]至少一个处理器;以及
[0022]与所述至少一个处理器通信连接的存储器;其中,
[0023]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法;或者,以使所述至少一个处理器能够执行第二方面所述的方法。
[0024]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法;或者,所述计算机指令用于使所述计算机执行第二方面所述的方法。
[0025]根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法;或者,所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的方法。
[0026]根据本公开的第八方面,提供了一种文本识别模型框架的训练系统,所述系统包括:
[0027]文本检测模型,用于对样本图像进行特征处理,得到与所述样本图像中文本信息相关的至少两种特征信息;
[0028]特征融合模型,用于对所述样本图像的至少两种特征信息进行融合处理,得到所述样本图像的融合特征;
[0029]所述特征融合模型还用于,对所述文本检测模型和所述特征融合模型的参数分别进行调整,得到文本识别模型框架,其中,所述文本识别模型框架中包括调整后的文本检测模型和调整后的特征融合模型。
[0030]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0031]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0032]图1是根据本公开第一实施例的示意图;
[0033]图2是根据本公开第二实施例的示意图;
[0034]图3是根据本公开实施例的文本识别模型框架的训练方法的场景示意图;
[0035]图4是根据本公开第三实施例的示意图;
[0036]图5是根据本公开第四实施例的示意图;
[0037]图6是根据本公开第五实施例的示意图;
[0038]图7是根据本公开第六实施例的示意图;
[0039]图8是用来实现本公开实施例的文本识别模型框架的训练方法、文本识别方法的电子设备的框图;
[0040]图9是根据本公开第七实施例的示意图。
具体实施方式
[0041]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0042]文本识别技术是指对图像中的文本信息的识别,且文本识别技术被广泛地应用于各个领域,如教育领域,金融领域,医疗领域,交通领域,以及保险领域等。
[0043]例如,当文本识别技术应用于医疗领域中,可以基于文本识别技术对病历本图像中的文本信息进行识别。又如,当文本识别技术应用于保险领域中,可以基于文本识别技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型框架的训练方法,所述方法包括:基于预设的文本检测模型对样本图像进行特征处理,得到与所述样本图像中文本信息相关的至少两种特征信息;基于预设的特征融合模型对所述样本图像的至少两种特征信息进行融合处理,得到所述样本图像的融合特征;将所述融合特征输入至所述特征融合模型,基于所述融合特征模型对所述文本检测模型和所述特征融合模型的参数分别进行调整,得到文本识别模型框架,其中,所述文本识别模型框架中包括调整后的文本检测模型和调整后的特征融合模型。2.根据权利要求1所述的方法,其中,基于预设的文本检测模型对样本图像进行特征处理,得到与所述样本图像中文本相关的至少两种特征信息,包括:基于所述文本检测模型确定所述样本图像中文本行的位置信息,并根据所述位置信息确定所述至少两种特征信息。3.根据权利要求2所述的方法,其中,根据所述位置信息确定所述至少两种特征信息,包括:根据所述位置信息对所述样本图像进行裁剪操作,得到文本区域,并从所述文本区域中获取所述至少两种特征信息。4.根据权利要求3所述的方法,其中,从所述文本区域中获取所述至少两种特征信息,包括:从所述文本区域中提取所述样本图像的图像特征,并对所述图像特征进行识别,得到所述至少两种特征信息。5.根据权利要求2至4中任一项所述的方法,所述至少两种特征信息包括文本特征和视觉特征;在根据所述位置信息确定所述至少两种特征信息之后,还包括:构建用于表征所述文本特征的多个文本特征块,并构建用于表征所述视觉特征的多个视觉特征块;以及,将所述融合特征输入至所述特征融合模型,基于所述融合特征模型对所述文本检测模型和所述特征融合模型的参数分别进行调整,包括:由所述特征融合模型根据所述融合特征和所述多个文本特征块,对所述文本检测模型和所述特征融合模型的参数分别进行调整;和/或,由所述特征融合模型根据所述融合特征和所述多个视觉特征块,对所述文本检测模型和所述特征融合模型的参数分别进行调整。6.根据权利要求5所述的方法,其中,由所述特征融合模型根据所述融合特征和所述多个文本特征块,对所述文本检测模型和所述特征融合模型的参数分别进行调整,包括:由所述特征融合模型随机遮盖所述融合特征中的部分文本特征,并根据所述多个文本特征块对遮盖的所述部分文本特征进行预测补齐处理,得到预测补齐后的部分文本特征;根据所述预测补齐后的部分文本特征、以及所述融合特征中除被遮盖的所述部分文本特征以外的特征,对所述文本检测模型和所述特征融合模型的参数分别进行调整。7.根据权利要求5所述的方法,其中,由所述特征融合模型根据所述融合特征和所述多个视觉特征块,对所述文本检测模型和所述特征融合模型的参数分别进行调整,包括:由所述特征融合模型随机遮盖所述融合特征中的部分视觉特征,并根据所述多个视觉特征块对被遮盖的所述部分视觉特征进行预测补齐处理,得到预测补齐后的部分视觉特
征;根据所述预测补齐后的部分视觉特征、以及所述融合特征中除被遮盖的所述部分视觉特征以外的特征,对所述文本检测模型和所述特征融合模型的参数分别进行调整。8.根据权利要求5所述的方法,其中,由所述特征融合模型根据所述融合特征和所述多个文本特征块,对所述文本检测模型和所述特征融合模型的参数分别进行调整,包括:由所述特征融合模型根据所述多个文本特征块中的至少部分文本特征块,对所述融合特征中的文本特征进行替换处理,得到替换后的文本特征;根据所述融合特征中的视觉特征、以及所述替换后的文本特征,对所述文本检测模型和所述特征融合模型的参数分别进行调整。9.根据权利要求5所述的方法,其中,由所述特征融合模型根据所述融合特征和所述多个视觉特征块,对所述文本检测模型和所述特征融合模型的参数分别进行调整,包括:由所述特征融合模型根据所述多个视觉特征块中的至少部分视觉特征块,对所述融合特征中的视觉特征进行替换处理,得到替换后的视觉特征;根据所述融合特征中的文本特征、以及所述替换后的视觉特征,对所述文本检测模型和所述特征融合模型的参数分别进行调整。10.根据权利要求5至9中任一项所述的方法,其中,若由所述特征融合模型根据所述融合特征、所述多个文本特征块、以及所述多个视觉特征块,对所述文本检测模型和所述特征融合模型的参数分别进行调整,则对所述文本检测模型和所述特征融合模型的参数分别进行调整,包括:由所述特征融合模型根据所述融合特征和所述多个文本特征块,确定用于对所述文本检测模型和所述特征融合模型的进行调整的第一调整任务结果;由所述特征融合模型根据所述融合特征和所述多个视觉特征块,确定用于对所述文本检测模型和所述特征融合模型的进行调整的第二调整任务结果;根据所述第一调整任务结果和第二调整任务结果的加权平均信息,对所述文本检测模型和所述特征融合模型的参数分别进行调整。11.一种文本识别方法,包括:获取待识别图像;将所述待识别图像输入至预先训练的文本识别模型,得到所述待识别图像中的文本信息,其中,所述文本识别模型是基于预先训练的文本识别模型框架对待训练图像进行训练生成的,所述文本识别模型框架为由权利要求1至10中任一项所述训练方法训练获得,所述待训练图像中包括文本信息。12.一种文本识别模型框架的训练装置,所述装置包括:处理单元,用于基于预设的文本检测模型对样本图像进行特征处理,得到与所述样本图像中文本信息相关的至少两种特征信息;融合单元,用于基于预设的特征融合模型对所述样本图像的至少两种特征信息进行融合处理,得到所述样本图像的融合特征;训练单元,用于将所述融合特征输入至所述特征融合模型,基于所述融合特征模型对所述文本检测模型和所述特征融...

【专利技术属性】
技术研发人员:章成全吕鹏原李煜林庾悦晨姚锟韩钧宇刘经拓丁二锐吴甜王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1