用于文本检测的深度学习模型训练方法及文本检测方法技术

技术编号:30792541 阅读:15 留言:0更新日期:2021-11-16 07:56
本公开提供了用于文本检测的深度学习模型训练方法及文本检测方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景。给出了用于文本检测的深度学习模型训练方法,单字符分割子网络输出的单字符分割预测结果,文本行分割子网络输出的文本行分割预测结果,训练后的深度学习模型可以用于文本区域的检测;并且可以同时实现单字符分割及文本行分割的预测,从而能够结合两种文本分割方式来进行文本检测,能够进一步提高文本区域检测的准确性。够进一步提高文本区域检测的准确性。够进一步提高文本区域检测的准确性。

【技术实现步骤摘要】
用于文本检测的深度学习模型训练方法及文本检测方法


[0001]本公开人工智能
,具体为计算机视觉和深度学习


技术介绍

[0002]随着深度学习技术的发展,基于深度学习模型的文本检测已经广泛应用于工业界和学术界,如旅游即时翻译,纸质文档电子化,招牌识别,图片文字审核等,而要实现对图像中的文本进行检测,首先要确定图像中的文本区域。

技术实现思路

[0003]本公开提供了一种用于文本检测的深度学习模型训练方法及文本检测方法的方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种用于文本检测的深度学习模型训练方法,所述方法包括:
[0005]获取待训练的深度学习模型,其中,深度学习模型包括单字符预测网络及文本行预测网络,所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络,所述文本行预测网络包括文本行分割子网络及第二字符数量预测子网络;
[0006]选取一第一类样本数据及当前选取的第一类样本数据的标签数据;
[0007]将当前选取的第一类样本数据输入到深度学习模型中,得到当前选取的第一类样本数据的预测结果,其中,所述预测结果包括单字符分割预测结果、第一字符数量预测值、文本行分割预测结果、第二字符数量预测值;
[0008]根据当前选取的第一类样本数据的预测结果及标签数据,调整深度学习模型的训练参数,得到训练后的深度学习模型。
[0009]根据本公开的第二方面,提供了一种文本检测方法,包括:
[0010]获取待检测数据;
[0011]将所述待检测数据输入到预先训练的深度学习模型中,得到所述待检测数据的单字符分割预测结果及文本行分割预测结果,其中,所述深度学习模型基于本公开中任一所述的用于文字检测的深度学习模型训练方法训练得到;
[0012]根据所述待检测数据的单字符分割预测结果及文本行分割预测结果,确定所述待检测数据中的文本区域。
[0013]根据本公开的第三方面,提供了一种用于文本检测的深度学习模型训练装置,所述装置包括:
[0014]深度学习模型获取模块,用于获取待训练的深度学习模型,其中,深度学习模型包括单字符预测网络及文本行预测网络,所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络,所述文本行预测网络包括文本行分割子网络及第二字符数量预测子网络;
[0015]第一类样本数据选取模块,用于选取一第一类样本数据及当前选取的第一类样本
数据的标签数据;
[0016]预测结果确定模块,用于将当前选取的第一类样本数据输入到深度学习模型中,得到当前选取的第一类样本数据的预测结果,其中,所述预测结果包括单字符分割预测结果、第一字符数量预测值、文本行分割预测结果、第二字符数量预测值;
[0017]训练参数调整模块,用于根据当前选取的第一类样本数据的预测结果及标签数据,调整深度学习模型的训练参数,得到训练后的深度学习模型。
[0018]根据本公开的第四方面,提供了一种文本检测装置,包括:
[0019]待检测数据获取模块,用于获取待检测数据;
[0020]预测结果确定模块,用于将所述待检测数据输入到预先训练的深度学习模型中,得到所述待检测数据的单字符分割预测结果及文本行分割预测结果,其中,所述深度学习模型基于本申请中任一所述的用于文字检测的深度学习模型训练装置训练得到;
[0021]文本区域确定模块,用于根据所述待检测数据的单字符分割预测结果及文本行分割预测结果,确定所述待检测数据中的文本区域。
[0022]根据本公开的第五方面,提供了一种电子设备,包括:
[0023]至少一个处理器;以及
[0024]与所述至少一个处理器通信连接的存储器;其中,
[0025]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请中任一所述的用于文本检测的深度学习模型训练方法及文本检测方法的方法。
[0026]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请中任一所述的用于文本检测的深度学习模型训练方法及文本检测方法的方法。
[0027]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请中任一所述的用于文本检测的深度学习模型训练方法及文本检测方法的方法。
[0028]在本公开实施例中,给出了用于文本检测的深度学习模型训练方法,训练后的深度学习模型可以用于文本区域的检测;并且可以同时实现单字符分割及文本行分割的预测,从而能够结合两种文本分割方式来进行文本检测,能够进一步提高文本区域检测的准确性。
[0029]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0031]图1是根据本公开实施例的用于文本检测的深度学习模型训练方法的一种示意图;
[0032]图2是根据本公开实施例中步骤S13的一种可能的实现方式的示意图;
[0033]图3是根据本公开实施例的有监督训练的过程的一种示意图;
[0034]图4是根据本公开实施例的无监督训练的过程的一种示意图;
[0035]图5是根据本公开实施例的文本检测方法的一种示意图;
[0036]图6是根据本公开实施例中步骤S53的一种可能的实现方式的示意图;
[0037]图7是根据本公开实施例的用于文本检测的深度学习模型训练装置的一种示意图;
[0038]图8是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
[0039]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0040]要实现对图像中的文本进行检测,首先要确定图像中的文本区域,有鉴于此,本公开实施例提供了一种用于文本检测的深度学习模型训练方法,参见图1,所述方法包括:
[0041]S11,获取待训练的深度学习模型,其中,深度学习模型包括单字符预测网络及文本行预测网络,所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络,所述文本行预测网络包括文本行分割子网络及第二字符数量预测子网络。
[0042]本公开实施例的用于文本检测的深度学习模型训练方法可以通过电子设备实现,具体的,该电子设备可以为智能手机、个人电脑或服务器等。
[0043]待训练的深度学习模型包括单字符预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于文本检测的深度学习模型训练方法,所述方法包括:获取待训练的深度学习模型,其中,深度学习模型包括单字符预测网络及文本行预测网络,所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络,所述文本行预测网络包括文本行分割子网络及第二字符数量预测子网络;选取一第一类样本数据及当前选取的第一类样本数据的标签数据;将当前选取的第一类样本数据输入到深度学习模型中,得到当前选取的第一类样本数据的预测结果,其中,所述预测结果包括单字符分割预测结果、第一字符数量预测值、文本行分割预测结果、第二字符数量预测值;根据当前选取的第一类样本数据的所述预测结果及标签数据,调整深度学习模型的训练参数,得到训练后的深度学习模型。2.根据权利要求1所述的方法,其中,所述深度学习模型还包括编码器网络、第一解码器网络、第二解码器网络;所述将当前选取的第一类样本数据输入到深度学习模型中,得到当前选取的第一类样本数据的预测结果,包括:利用所述编码器网络对当前选取的第一类样本数据进行特征提取,得到全局特征;利用所述第一解码器网络对所述全局特征进行特征提取,得到第一高层特征;利用所述第二解码器网络对所述全局特征进行特征提取,得到第二高层特征;利用所述单字符分割子网络对所述第一高层特征进行处理,得到输出的单字符分割预测结果,利用所述第一字符数量预测子网络对所述第一高层特征进行处理,得到第一字符数量预测值;利用所述文本行分割子网络对所述第二高层特征进行处理,得到的文本行分割预测结果,利用所述第二字符数量预测子网络对所述第二高层特征进行处理,得到第二字符数量预测值。3.根据权利要求2所述的方法,其中,所述第一类样本数据的标签数据包括字符数量真值、单字符分割真值结果、文本行分割真值结果中的至少一项;所述根据当前选取的第一类样本数据的预测结果及标签数据,调整深度学习模型的训练参数的步骤,包括以下步骤中的至少一项:根据当前选取的第一类样本数据的单字符分割预测结果及当前选取的第一类样本数据的单字符分割真值结果,计算第一损失;根据所述第一损失,调整所述编码器网络、第一解码器网络、单字符分割子网络中至少一个网络的训练参数;根据当前选取的第一类样本数据的第一字符数量预测值及当前选取的第一类样本数据的字符数量真值,计算第二损失;根据所述第二损失,调整所述编码器网络、第一解码器网络、第一字符数量预测子网络中至少一个网络的训练参数;根据当前选取的第一类样本数据的文本行分割预测结果及当前选取的第一类样本数据的文本行分割真值结果,计算第三损失;根据所述第三损失,调整所述编码器网络、第二解码器网络、文本行分割子网络中至少一个网络的训练参数;根据当前选取的第一类样本数据的第二字符数量预测值及当前选取的第一类样本数据的字符数量真值,计算第四损失;根据所述第四损失,调整所述编码器网络、第二解码器网络、第二字符数量预测子网络中至少一个网络的训练参数。
4.根据权利要求1

3任一所述的方法,其中,所述方法还包括:基于多个第一类样本数据的第一字符数量预测值及第二字符数量预测值,确定第一字符数量预测值与第二字符数量预测值的相对熵,得到第一相对熵;根据所述第一相对熵,调整所述第一字符数量预测子网络和所述第二字符数量预测子网络中至少一个网络的训练参数。5.根据权利要求1所述的方法,其中,所述得到训练后的深度学习模型,包括:继续选取第一类样本数据对深度学习模型进行有监督训练,并利用第二类样本数据对对深度学习模型无监督训练,直至满足预设训练结束条件,得到训练后的深度学习模型。6.根据权利要求5所述的方法,其中,所述利用第二类样本数据对对深度学习模型无监督训练,包括:获取多个第二类样本数据;分别对各所述第二类样本数据进行数据增广,得到各所述第二类样本数据对应的第三类样本数据;分别将各所述第二类样本数据输入到训练后的深度学习模型中,得到所述第一字符数量预测子网络输出的各所述第二类样本数据的第三字符数量预测值;分别将各所述第三类样本数据输入到训练后的深度学习模型中,得到所述第二字符数量预测子网络输出的各所述第三类样本数据的第四字符数量预测值;基于各所述第二类样本数据的第三字符数量预测值及各所述第三类样本数据的第四字符数量预测值,确定第三字符数量预测值与第四字符数量预测值的相对熵,得到第二相对熵;根据所述第二相对熵,调整所述第一字符数量预测子网络和所述第二字符数量预测子网络中至少一个网络的训练参数。7.一种文本检测方法,包括:获取待检测数据;将所述待检测数据输入到预先训练的深度学习模型中,得到所述待检测数据的单字符分割预测结果及文本行分割预测结果,其中,所述深度学习模型基于权利要求1

6任一所述的用于文字检测的深度学习模型训练方法训练得到;根据所述待检测数据的单字符分割预测结果及文本行分割预测结果,确定所述待检测数据中的文本区域。8.根据权利要求7所述的方法,其中,所述根据所述待检测数据的单字符分割预测结果及文本行分割预测结果,确定所述待检测数据中的文本区域,包括:根据所述待检测数据的单字符分割预测结果,将所述待检测数据中预测有字符的区域标记为第一数值,将没有字符的区域标记为第二数据,得到第一二值图;根据所述待检测数据的文本行分割预测结果,将所述待检测数据中预测有字符的区域标记为第一数值,将没有字符的区域标记为第二数据,得到第二二值图;将所述第一二值图中第一数值的区域与所述第二二值图中第一数值的区域取并集,得到所述待检测数据的文本区域。9.根据权利要求7所述的方法,其中,所述深度学习模型为去除第一字符数量预测子网络及第二字符数量预测子网络的深度学习模型。
10.一种用于文本检测的深度学习模型训练装置,所述装置包括:深度学习模型获取模块,用于获取待训练的深度学习模型,其中,深度学习模型包括单字符预测网络及文本行预测网络,所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络,所述文本行预测网络包括文本行分割子网络及第二字符数量预测子...

【专利技术属性】
技术研发人员:范森王晓燕吕鹏原章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1