文本检测模型的训练方法及装置、文本检测方法及装置制造方法及图纸

技术编号：29873986 阅读：16 留言：0更新日期：2021-08-31 23:49

本公开提供了一种文本检测模型的训练方法，涉及人工智能领域，尤其涉及计算机视觉和深度学习领域。具体为：获取带有文本标注框的样本图像，其中，上述文本标注框用于标注上述样本图像中包含的文本主体上的目标文本；将上述样本图像输入初始文本检测模型，以执行以下操作：进行主体检测，得到上述文本主体的位置信息；进行特征提取，得到第一样本特征图；基于上述位置信息和上述第一样本特征图，进行特征融合，得到第二样本特征图以及上述文本标注框内各像素点的角度信息；以及基于上述第二样本特征图和上述角度信息以及预先设定的损失函数训练上述初始文本检测模型。本公开还提供了一种文本检测方法及其装置、一种文本检测模型的训练装置。

全部详细技术资料下载

【技术实现步骤摘要】
文本检测模型的训练方法及装置、文本检测方法及装置
本公开涉及人工智能
，尤其涉及计算机视觉和深度学习
具体涉及一种文本检测模型的训练方法、一种文本检测方法、一种文本检测模型的训练装置、一种文本检测装置、一种电子设备、一种存储有计算机指令的非瞬时计算机可读存储介质和一种计算机程序产品。
技术介绍
OCR(OpticalCharacterRecognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。
技术实现思路
本公开提供了一种文本检测模型的训练方法及文本检测方法、装置、设备、存储介质以及计算机程序产品。根据本公开的一方面，提供了一种文本检测模型的训练方法，包括：获取带有文本标注框的样本图像，其中，上述文本标注框用于标注上述样本图像中包含的文本主体上的目标文本；将上述样本图像输入初始文本检测模型，以执行以下操作：进行主体检测，得到上述文本主体的位置信息；进行特征提取，得到第一样本特征图；基于上述位置信息和上述第一样本特征图，进行特征融合，得到第二样本特征图以及上述文本标注框内各像素点的角度信息；以及基于上述第二样本特征图和上述角度信息以及预先设定的损失函数训练上述初始文本检测模型，得到目标文本检测模型。根据本公开的另一方面，提供了一种文本检测方法，包括：利用主体检测网络对目标图像进行主体检测，得到图像中包含的文本主体的位置信息；对上述目标图像进行特征提取，得到第一特征图像；基于上...

【技术保护点】
1.一种文本检测模型的训练方法，包括：/n获取带有文本标注框的样本图像，其中，所述文本标注框用于标注所述样本图像中包含的文本主体上的目标文本；/n将所述样本图像输入初始文本检测模型，以执行以下操作：/n进行主体检测，得到所述文本主体的位置信息；/n进行特征提取，得到第一样本特征图；/n基于所述位置信息和所述第一样本特征图，进行特征融合，得到第二样本特征图以及所述文本标注框内各像素点的角度信息；以及/n基于所述第二样本特征图和所述角度信息以及预先设定的损失函数训练所述初始文本检测模型，得到目标文本检测模型。/n

【技术特征摘要】
1.一种文本检测模型的训练方法，包括：
获取带有文本标注框的样本图像，其中，所述文本标注框用于标注所述样本图像中包含的文本主体上的目标文本；
将所述样本图像输入初始文本检测模型，以执行以下操作：
进行主体检测，得到所述文本主体的位置信息；
进行特征提取，得到第一样本特征图；
基于所述位置信息和所述第一样本特征图，进行特征融合，得到第二样本特征图以及所述文本标注框内各像素点的角度信息；以及
基于所述第二样本特征图和所述角度信息以及预先设定的损失函数训练所述初始文本检测模型，得到目标文本检测模型。

2.根据权利要求1所述的方法，其中：
响应于主体预测框内的图像区域在整个所述样本图像中的占比小于第一预设值，基于所述位置信息和所述第一样本特征图，进行特征融合，其中，所述主体预测框是基于所述位置信息确定的。

3.根据权利要求1或2所述的方法，其中，所述损失函数包括：点约束损失函数L＝f(θ’-θ)，其中，
θ表示所述文本标注框内各像素点的角度；以及
θ’表示与所述文本标注框对应的文本预测框内各像素点的角度。

4.根据权利要求1所述的方法，其中：
利用主体检测网络进行主体检测，得到所述文本主体的位置信息，其中，所述主体检测网络是所述初始文本检测模型中的网络分支。

5.一种文本检测方法，包括：
利用主体检测网络对目标图像进行主体检测，得到图像中包含的文本主体的位置信息；
对所述目标图像进行特征提取，得到第一特征图像；
基于所述位置信息和所述第一特征图像进行特征融合，得到第二特征图像；以及
基于所述第二特征图像，并利用通过权利要求1至4中任一项方法训练得到的文本检测模型进行文本检测，得到对应的文本预测框。

6.根据权利要求5所述的方法，其中，所述主体检测网络是所述文本检测模型中的网络分支。

7.根据权利要求5所述的方法，其中，所述目标图像中包括文本主体，所述文本主体在整个所述目标图像中的占比小于第二预设值。

8.根据权利要求7所述的方法，其中，所述文本主体上的文本具有预设倾斜角度。

9.一种文本检测模型的训练装置，包括：
获取模块，用于获取带有文本标注框的样本图像，其中，所述文本标注框用于标注所述样本图像中包含的文本主体上的目标文本；
输入模块，用于将所述样本图像输入初始文本检测模型，以通过以下单元执行相应操作：
主体检测单元，用于进行主体检测，得到所述文本主体的位置信息；
特征提取单元，用于进行特征提取，得到第一样本特征图；
特征融合单元，用于基于...

【专利技术属性】
技术研发人员：陈毅，谢群义，钦夏孟，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人