文本检测方法、模型的训练方法、装置、电子设备及介质制造方法及图纸

技术编号:34805307 阅读:18 留言:0更新日期:2022-09-03 20:12
本公开提供了文本检测方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:对待检测图像进行图像特征提取,得到全局特征图;对全局特征图进行分类,得到分类结果;基于分类结果,从多个检测模式中确定目标检测模式;以及按照目标检测模式处理全局特征图,得到待检测图像的文本检测结果。检测结果。检测结果。

【技术实现步骤摘要】
文本检测方法、模型的训练方法、装置、电子设备及介质


[0001]本公开涉及人工智能
,尤其涉及深度学习、图像处理、计算机视觉
,可应用于OCR等场景。具体涉及文本检测方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

技术介绍

[0002]OCR(Optical Character Recognition,光学字符识别),可以是指利用文本检测方法以及文本识别方法,将待检测图像中的文本内容进行检测、识别并转换为计算机可以处理的语言的技术。OCR是自动识别技术研究和应用领域中的一个重要方面。
[0003]随着图像数据量爆炸式增长,海量的数据源以及丰富的数据层次,使得待检测图像中的文本内容的类型越来越广泛,进而对OCR技术的要求也越来越高。

技术实现思路

[0004]本公开提供了一种文本检测方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。
[0005]根据本公开的一方面,提供了一种文本检测方法,包括:对待检测图像进行图像特征提取,得到全局特征图;对上述全局特征图进行分类,得到分类结果;基于上述分类结果,从多个检测模式中确定目标检测模式;以及按照上述目标检测模式处理上述全局特征图,得到上述待检测图像的文本检测结果。
[0006]根据本公开的另一方面,提供了一种深度学习模型的训练方法,包括:对样本图像进行图像特征提取,得到样本全局特征图;按照多个检测模式分别处理上述样本全局特征图,得到多个样本文本检测结果;基于上述多个样本文本检测结果,确定上述样本图像的分类标签;将上述样本全局特征图输入至深度学习模型中,得到样本分类结果;以及利用上述样本分类结果和上述分类标签,训练上述深度学习模型,得到经训练的深度学习模型。
[0007]根据本公开的另一方面,提供了一种文本检测装置,包括:提取模块,用于对待检测图像进行图像特征提取,得到全局特征图;分类模块,用于对上述全局特征图进行分类,得到分类结果;确定模块,用于基于上述分类结果,从多个检测模式中确定目标检测模式;以及检测模块,用于按照上述目标检测模式处理上述全局特征图,得到上述待检测图像的文本检测结果。
[0008]根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括:样本提取模块,用于对样本图像进行图像特征提取,得到样本全局特征图;样本检测模块,用于按照多个检测模式分别处理上述样本全局特征图,得到多个样本文本检测结果;样本确定模块,用于基于上述多个样本文本检测结果,确定上述样本图像的分类标签;样本输入模块,用于将上述样本全局特征图输入至深度学习模型中,得到样本分类结果;以及训练模块,用于利用上述样本分类结果和上述分类标签,训练上述深度学习模型,得到经训练的深度学习模型。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上
述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开的方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开的方法。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1示意性示出了根据本公开实施例的可以应用文本检测方法及装置的示例性系统架构;
[0015]图2示意性示出了根据本公开实施例的文本检测方法的应用场景图;
[0016]图3示意性示出了根据本公开实施例的文本检测方法的流程图;
[0017]图4示意性示出了根据本公开实施例的获取分类结果的方法的流程示意图;
[0018]图5示意性示出了根据本公开另一实施例的文本检测方法的流程示意图;
[0019]图6示意性示出了根据本公开另一实施例的文本检测方法的流程示意图;
[0020]图7示意性示出了根据本公开另一实施例的深度学习模型的训练方法的流程图;
[0021]图8示意性示出了根据本公开实施例的文本检测装置的框图;
[0022]图9示意性示出了根据本公开实施例的深度学习模型的训练装置的框图;以及
[0023]图10示意性示出了根据本公开实施例的适于实现文本检测方法的电子设备的框图。
具体实施方式
[0024]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0025]本公开提供了一种文本检测方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。
[0026]根据本公开的实施例,提供了一种文本检测方法,包括:对待检测图像进行图像特征提取,得到全局特征图;对全局特征图进行分类,得到分类结果;基于分类结果,从多个检测模式中确定目标检测模式;以及按照目标检测模式处理全局特征图,得到待检测图像的文本检测结果。
[0027]在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0028]在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
[0029]图1示意性示出了根据本公开实施例的可以应用文本检测方法及装置的示例性系统架构。
[0030]需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用文本检测方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的文本检测方法及装置。
[0031]如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备l01、l02、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
[0032]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法,包括:对待检测图像进行图像特征提取,得到全局特征图;对所述全局特征图进行分类,得到分类结果;基于所述分类结果,从多个检测模式中确定目标检测模式;以及按照所述目标检测模式处理所述全局特征图,得到所述待检测图像的文本检测结果。2.根据权利要求1所述的方法,其中,所述对所述全局特征图进行分类,得到分类结果,包括:对所述全局特征图进行第一卷积操作,得到第一卷积后的全局特征图;以及对所述第一卷积后的全局特征图进行分类,得到所述分类结果。3.根据权利要求1或2所述的方法,其中,所述基于所述分类结果,从多个检测模式中确定目标检测模式,包括:在确定所述分类结果为分割分类结果的情况下,确定所述目标检测模式为分割检测模式;以及在确定所述分类结果为回归分类结果的情况下,确定所述目标检测模式为回归检测模式。4.根据权利要求3所述的方法,其中,所述目标检测模式包括回归检测模式;所述按照所述目标检测模式处理所述全局特征图,得到所述待检测图像的文本检测结果,包括:对所述全局特征图进行第二卷积操作,得到第二卷积后的全局特征图;以及对所述第二卷积后的全局特征图进行非极大值抑制处理,得到所述待检测图像的文本检测结果。5.根据权利要求3所述的方法,其中,所述目标检测模式包括分割检测模式;所述按照所述目标检测模式处理所述全局特征图,得到所述待检测图像的文本检测结果,包括:对所述全局特征图进行第三卷积操作,得到第三卷积后的全局特征图;以及对所述第三卷积后的全局特征图进行连通域标记处理,得到所述待检测图像的所述文本检测结果。6.一种深度学习模型的训练方法,包括:对样本图像进行图像特征提取,得到样本全局特征图;按照多个检测模式分别处理所述样本全局特征图,得到多个样本文本检测结果;基于所述多个样本文本检测结果,确定所述样本图像的分类标签;将所述样本全局特征图输入至深度学习模型中,得到样本分类结果;以及利用所述样本分类结果和所述分类标签,训练所述深度学习模型,得到经训练的深度学习模型。7.根据权利要求6所述的方法,其中,所述基于所述多个样本文本检测结果,确定所述样本图像的分类标签,包括:从所述多个样本文本检测结果中确定目标样本文本检测结果;确定与所述目标样本文本检测结果相匹配的目标样本检测模式;以及将与所述目标样本检测模式相对应的预定分类标签作为所述样本图像的分类标签。
8.一种文本检测装置,包括:提取模块,用于对待检测图像进行图像特征提取,得到全局特征图;分类模块,用于对所述全局特征图进行分类,得到分类结果;确定模块,用于基于所述分类结果,从多个检测模式中确定目标检测模式;以及检测模块,用于按照所述目标检测模式处理所述全局特征图,得到所述待检测图像的文本检测结果。9....

【专利技术属性】
技术研发人员:范森吕鹏原王晓燕乔美娜刘珊珊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1