文本检测模型的训练方法及装置、文本检测方法及装置制造方法及图纸

技术编号:29873986 阅读:16 留言:0更新日期:2021-08-31 23:49
本公开提供了一种文本检测模型的训练方法,涉及人工智能领域,尤其涉及计算机视觉和深度学习领域。具体为:获取带有文本标注框的样本图像,其中,上述文本标注框用于标注上述样本图像中包含的文本主体上的目标文本;将上述样本图像输入初始文本检测模型,以执行以下操作:进行主体检测,得到上述文本主体的位置信息;进行特征提取,得到第一样本特征图;基于上述位置信息和上述第一样本特征图,进行特征融合,得到第二样本特征图以及上述文本标注框内各像素点的角度信息;以及基于上述第二样本特征图和上述角度信息以及预先设定的损失函数训练上述初始文本检测模型。本公开还提供了一种文本检测方法及其装置、一种文本检测模型的训练装置。

【技术实现步骤摘要】
文本检测模型的训练方法及装置、文本检测方法及装置
本公开涉及人工智能
,尤其涉及计算机视觉和深度学习
具体涉及一种文本检测模型的训练方法、一种文本检测方法、一种文本检测模型的训练装置、一种文本检测装置、一种电子设备、一种存储有计算机指令的非瞬时计算机可读存储介质和一种计算机程序产品。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
技术实现思路
本公开提供了一种文本检测模型的训练方法及文本检测方法、装置、设备、存储介质以及计算机程序产品。根据本公开的一方面,提供了一种文本检测模型的训练方法,包括:获取带有文本标注框的样本图像,其中,上述文本标注框用于标注上述样本图像中包含的文本主体上的目标文本;将上述样本图像输入初始文本检测模型,以执行以下操作:进行主体检测,得到上述文本主体的位置信息;进行特征提取,得到第一样本特征图;基于上述位置信息和上述第一样本特征图,进行特征融合,得到第二样本特征图以及上述文本标注框内各像素点的角度信息;以及基于上述第二样本特征图和上述角度信息以及预先设定的损失函数训练上述初始文本检测模型,得到目标文本检测模型。根据本公开的另一方面,提供了一种文本检测方法,包括:利用主体检测网络对目标图像进行主体检测,得到图像中包含的文本主体的位置信息;对上述目标图像进行特征提取,得到第一特征图像;基于上述位置信息和上述第一特征图像进行特征融合,得到第二特征图像;以及基于上述第二特征图像,并利用通过本公开实施例的方法训练得到的文本检测模型进行文本检测,得到对应的文本预测框。根据本公开的另一方面,提供了一种文本检测模型的训练装置,包括:获取模块,用于获取带有文本标注框的样本图像,其中,上述文本标注框用于标注上述样本图像中包含的文本主体上的目标文本;输入模块,用于将上述样本图像输入初始文本检测模型,以通过以下单元执行相应操作:主体检测单元,用于进行主体检测,得到上述文本主体的位置信息;特征提取单元,用于进行特征提取,得到第一样本特征图;特征融合单元,用于基于上述位置信息和上述第一样本特征图,进行特征融合,得到第二样本特征图以及上述文本标注框内各像素点的角度信息;以及模型训练单元,用于基于上述第二样本特征图和上述角度信息以及预先设定的损失函数训练上述初始文本检测模型,得到目标文本检测模型。根据本公开的另一方面,提供了一种文本检测装置,包括:主体检测模块,用于利用主体检测网络对目标图像进行主体检测,得到图像中包含的文本主体的位置信息;特征提取模块,用于对上述目标图像进行特征提取,得到第一特征图像;特征融合模块,用于基于上述位置信息和上述第一特征图像进行特征融合,得到第二特征图像;以及文本检测模块,用于基于上述第二特征图像,并利用通过本公开实施例的装置训练得到的文本检测模型进行文本检测,得到对应的文本预测框。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行本公开实施例所述的方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行根据本公开实施例所述的方法。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1示例性示出了适于本公开实施例的系统架构;图2示例性示出了根据本公开实施例的文本检测模型的训练方法的流程图;图3A、图3B和图3C分别示例性示出了根据本公开实施例的文本检测模型的训练方法的样本图像、根据该样本图像进行主体检测后的图像及根据该样本图像得到的训练结果;图4示例性示出了根据本公开实施例的文本检测方法的流程图;图5示例性示出了根据本公开实施例的文本检测模型的原理图;图6示例性示出了根据本公开实施例的文本检测模型的训练装置的框图;图7示例性示出了根据本公开实施例的文本检测模型的训练装置的框图;图8示例性示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。OCR过程中需要进行目标检测,例如可以采用EAST(EfficientandAccuracySceneText,高效准确场景文本检测)模型进行目标检测。但是EAST模型不适用于大背景下小文档的文本检测,例如不适用于从以桌面为背景的证件照片中提取证件号码。目前,针对大背景下小文档目标的文本检测,可以采用增加前置检测分类器,即先检测出目标区域的图像再进行文本检测。但是此种方案需要用到两个模型,一个目标检测模型,一个文本检测模型,不是端到端的解决方案,不够便利,耗时和资源占用会提升比较明显,不利于工程应用。以下将结合具体实施例详细阐述本公开。适于本公开实施例的文本检测模型的训练方法或/和文本检测方法的系统架构介绍如下。图1示例性示出了适于本公开实施例的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他环境或场景。如图1所示,系统架构100可以包括客户端101和服务器102。客户端101可以上传包括目标文本的大占空比图像到服务器102。其中,大占空比图像指目标文本所在的图像区域在整体图像中的占比小,且背景图像的占比大。大占空比图像可以是以桌面为背景的证件照片或者以桌面为背景的票据照片。服务器102上布置有文本检测模型,可以从大占空比图像中识别出目标文本,并提取出相应的文本数据。例如,服务器102可以从以桌面为背景的证件照片中提取出证件号码。例如,服务器102可以从以桌面为背景的票据照片中提取票据收款人的姓名。例如,服务器102可以从以桌面为背景的火车票照片中提取出乘车人姓名。应该理解,图1中客户端和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端和服务器。适于本公开实施例的文本检测模型的训练方法或文本检测方法的应用场景介本文档来自技高网
...

【技术保护点】
1.一种文本检测模型的训练方法,包括:/n获取带有文本标注框的样本图像,其中,所述文本标注框用于标注所述样本图像中包含的文本主体上的目标文本;/n将所述样本图像输入初始文本检测模型,以执行以下操作:/n进行主体检测,得到所述文本主体的位置信息;/n进行特征提取,得到第一样本特征图;/n基于所述位置信息和所述第一样本特征图,进行特征融合,得到第二样本特征图以及所述文本标注框内各像素点的角度信息;以及/n基于所述第二样本特征图和所述角度信息以及预先设定的损失函数训练所述初始文本检测模型,得到目标文本检测模型。/n

【技术特征摘要】
1.一种文本检测模型的训练方法,包括:
获取带有文本标注框的样本图像,其中,所述文本标注框用于标注所述样本图像中包含的文本主体上的目标文本;
将所述样本图像输入初始文本检测模型,以执行以下操作:
进行主体检测,得到所述文本主体的位置信息;
进行特征提取,得到第一样本特征图;
基于所述位置信息和所述第一样本特征图,进行特征融合,得到第二样本特征图以及所述文本标注框内各像素点的角度信息;以及
基于所述第二样本特征图和所述角度信息以及预先设定的损失函数训练所述初始文本检测模型,得到目标文本检测模型。


2.根据权利要求1所述的方法,其中:
响应于主体预测框内的图像区域在整个所述样本图像中的占比小于第一预设值,基于所述位置信息和所述第一样本特征图,进行特征融合,其中,所述主体预测框是基于所述位置信息确定的。


3.根据权利要求1或2所述的方法,其中,所述损失函数包括:点约束损失函数L=f(θ’-θ),其中,
θ表示所述文本标注框内各像素点的角度;以及
θ’表示与所述文本标注框对应的文本预测框内各像素点的角度。


4.根据权利要求1所述的方法,其中:
利用主体检测网络进行主体检测,得到所述文本主体的位置信息,其中,所述主体检测网络是所述初始文本检测模型中的网络分支。


5.一种文本检测方法,包括:
利用主体检测网络对目标图像进行主体检测,得到图像中包含的文本主体的位置信息;
对所述目标图像进行特征提取,得到第一特征图像;
基于所述位置信息和所述第一特征图像进行特征融合,得到第二特征图像;以及
基于所述第二特征图像,并利用通过权利要求1至4中任一项方法训练得到的文本检测模型进行文本检测,得到对应的文本预测框。


6.根据权利要求5所述的方法,其中,所述主体检测网络是所述文本检测模型中的网络分支。


7.根据权利要求5所述的方法,其中,所述目标图像中包括文本主体,所述文本主体在整个所述目标图像中的占比小于第二预设值。


8.根据权利要求7所述的方法,其中,所述文本主体上的文本具有预设倾斜角度。


9.一种文本检测模型的训练装置,包括:
获取模块,用于获取带有文本标注框的样本图像,其中,所述文本标注框用于标注所述样本图像中包含的文本主体上的目标文本;
输入模块,用于将所述样本图像输入初始文本检测模型,以通过以下单元执行相应操作:
主体检测单元,用于进行主体检测,得到所述文本主体的位置信息;
特征提取单元,用于进行特征提取,得到第一样本特征图;
特征融合单元,用于基于...

【专利技术属性】
技术研发人员:陈毅谢群义钦夏孟姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1