旋转文字检测方法和装置制造方法及图纸

技术编号:35659371 阅读:17 留言:0更新日期:2022-11-19 16:57
本公开涉及一种旋转文字检测方法和装置,该方法包括:获取图形样本数据,根据对其中文字图形样本区的标注,得到文字区域框标签值和归一化角度标签值;将图形样本数据输入目标检测模型,得到文字区域框预测值和归一化角度预测值,进而得到文字区域框回归损失和角度归一化回归损失;根据文字区域框回归损失和角度归一化回归损失,得到整体回归损失;根据整体回归损失,调整目标检测模型,得到训练后的目标检测模型;基于训练后的目标检测模型对待检测图形数据进行检测,得到文字区域检测框。本公开中,文字区域框回归损失和角度归一化回归损失各自独立,不影响文字区域框的回归精度,实现了对图形数据中的各种旋转角度文字的端到端的准确检测。端的准确检测。端的准确检测。

【技术实现步骤摘要】
旋转文字检测方法和装置


[0001]本公开涉及图像识别
,特别涉及一种旋转文字检测方法和装置。

技术介绍

[0002]目前,文字识别广泛应用于各种场景之中,例如,通过手机的拍摄装置识别景物中出现的文字,能够辅助人们对陌生语言文字信息进行快速提取并通过辅助翻译得到所需要的信息。
[0003]通用的目标检测手段一般是采用正矩形框进行检测,在OCR(Optical Character Recognition,光学字符识别)文字检测的某些场景下,需要拍摄设备配合文字的方向进行旋转,使得文字在图像中成像的方向是正向的,这样才能顺利提取文字区域中的图像,供后续进行文字识别。
[0004]然而,在某些场景中,拍摄装置与所要识别的文字之间的角度难以确保文字在图像中成像的方向是正向的,所以,现有的目标检测方法无法适用于图像中文字的方向为多种角度呈现的情况。
[0005]因此,如何实现图像中多种角度呈现的文字的检测,以确保对各种情况下的文字识别,便成为亟待解决的问题。

技术实现思路

[0006]有鉴于此,本公开提供一种旋转文字检测方法和装置,实现对含有各种旋转角度文字的图形数据的文字区域的端到端的准确检测。
[0007]本公开的技术方案是这样实现的:一种旋转文字检测方法,包括:获取含有文字图形样本区的图形样本数据;根据对所述文字图形样本区的标注,得到所述文字图形样本区的标签信息,所述标签信息包括关联于所述文字图形样本区的文字区域框标签值和归一化角度标签值,其中,所述归一化角度标签值表征所述文字图形样本区相对于所述图形样本数据的坐标横轴的倾斜角度;将所述图形样本数据输入待训练的目标检测模型,通过所述待训练的目标检测模型得到关联于所述文字图形样本区的文字区域框预测值和归一化角度预测值;根据所述文字区域框预测值和所述文字区域框标签值得到文字区域框回归损失,根据所述归一化角度预测值和所述归一化角度标签值得到角度归一化回归损失;根据所述文字区域框回归损失和所述角度归一化回归损失,得到关联于所述文字图形样本区的整体回归损失;根据所述整体回归损失,调整所述待训练的目标检测模型,得到训练后的目标检测模型;基于所述训练后的目标检测模型对待检测图形数据进行检测,得到关联于所述待
检测图形数据中的文字图形区的文字区域检测框。
[0008]进一步,所述文字区域框标签值包括所述文字图形样本区的中心点的归一化坐标值、所述文字图形样本区的归一化宽度值、所述文字图形样本区的归一化高度值;所述归一化角度标签值通过下式获得:其中,为所述归一化角度标签值,为所述文字图形样本区相对于所述图形样本数据的坐标横轴的倾斜角度,。
[0009]进一步,所述文字区域框预测值包括所述文字图形样本区的中心点在所述图形样本数据中的归一化坐标预测值、所述文字图形样本区的归一化宽度预测值、所述文字图形样本区的归一化高度预测值。
[0010]进一步,所述文字区域框回归损失为广义交叉联合GIoU损失函数;所述角度归一化回归损失为光滑平均绝对值误差Smooth L1损失函数。
[0011]进一步,所述根据所述文字区域框回归损失和所述角度归一化回归损失,得到关联于所述文字图形样本区的整体回归损失,包括:将所述文字区域框回归损失和所述角度归一化回归损失相加,得到所述整体回归损失。
[0012]进一步,所述基于所述训练后的目标检测模型对待检测图形数据进行检测,得到关联于所述待检测图形数据中的文字图形区的文字区域检测框,包括:将所述待检测图形数据输入所述训练后的目标检测模型,通过所述训练后的目标检测模型得到所述文字图形区的文字区域框检测值和角度归一化检测值;根据所述角度归一化检测值,得到角度值;根据所述文字区域框检测值和所述角度值,得到所述文字区域检测框。
[0013]进一步,所述文字区域框检测值包括所述文字区域检测框的中心点的归一化坐标值、所述文字区域检测框的归一化宽度值、所述文字区域检测框的归一化高度值。
[0014]进一步,所述根据所述角度归一化检测值,得到角度值,包括采用下式获得所述角度值:其中,为所述角度归一化检测值,为所述角度值。
[0015]进一步,所述根据所述文字区域框检测值和所述角度值,得到所述文字区域检测框,包括:根据所述文字区域框检测值,得到所述文字区域检测框的中心点在所述待检测图形数据中的位置、以及所述文字区域检测框的宽度和高度;根据所述角度值,得到所述文字区域检测框相对于所述待检测图形数据的坐标横轴的倾斜角度;根据所述文字区域检测框的中心点在所述待检测图形数据中的位置、所述文字区域检测框的宽度和高度、所述文字区域检测框相对于所述待检测图形数据的坐标横轴的倾斜角度,得到所述文字区域检测框。
[0016]进一步,在得到所述文字区域检测框后,所述旋转文字检测方法进一步包括:将所述文字区域检测框呈现于所述待检测图形数据。
[0017]一种旋转文字检测装置,包括:图形样本数据获取模块,被配置为执行获取含有文字图形样本区的图形样本数据;标签信息获得模块,被配置为执行根据对所述文字图形样本区的标注,得到所述文字图形样本区的标签信息,所述标签信息包括关联于所述文字图形样本区的文字区域框标签值和归一化角度标签值,其中,所述归一化角度标签值表征所述文字图形样本区相对于所述图形样本数据的坐标横轴的倾斜角度;预测值获得模块,被配置为执行将所述图形样本数据输入待训练的目标检测模型,通过所述待训练的目标检测模型得到关联于所述文字图形样本区的文字区域框预测值和归一化角度预测值;区域框及角度回归损失获得模块,被配置为执行根据所述文字区域框预测值和所述文字区域框标签值得到文字区域框回归损失,根据所述归一化角度预测值和所述归一化角度标签值得到角度归一化回归损失;整体回归损失获得模块,被配置为执行根据所述文字区域框回归损失和所述角度归一化回归损失,得到关联于所述文字图形样本区的整体回归损失;模型训练模块,被配置为执行根据所述整体回归损失,调整所述待训练的目标检测模型,得到训练后的目标检测模型;图形检测模块,被配置为执行基于所述训练后的目标检测模型对待检测图形数据进行检测,得到关联于所述待检测图形数据中的文字图形区的文字区域检测框。
[0018]一种电子设备,包括:处理器;用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以实现如上任一项所述的旋转文字检测方法。
[0019]一种计算机可读存储介质,当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时,使得所述电子设备能够实现如上任一项所述的旋转文字检测方法。
[0020]从上述方案可以看出,本公开的旋转文字检测方法和装置,通过对图形样本数据的标注得到除文字区域框标签值以外的归一化角度标签值,并将目标检测模型的输出增加关于归一化角度的输出维度,其中,目标检测模型的整体回归损失包括了各自独立的文字区域框回归损失和角度归一化回归损失,因此,采用本公开的方式不影响文字区域框的回归精度,利用训练后的目标检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种旋转文字检测方法,包括:获取含有文字图形样本区的图形样本数据;根据对所述文字图形样本区的标注,得到所述文字图形样本区的标签信息,所述标签信息包括关联于所述文字图形样本区的文字区域框标签值和归一化角度标签值,其中,所述归一化角度标签值表征所述文字图形样本区相对于所述图形样本数据的坐标横轴的倾斜角度;将所述图形样本数据输入待训练的目标检测模型,通过所述待训练的目标检测模型得到关联于所述文字图形样本区的文字区域框预测值和归一化角度预测值;根据所述文字区域框预测值和所述文字区域框标签值得到文字区域框回归损失,根据所述归一化角度预测值和所述归一化角度标签值得到角度归一化回归损失;根据所述文字区域框回归损失和所述角度归一化回归损失,得到关联于所述文字图形样本区的整体回归损失;根据所述整体回归损失,调整所述待训练的目标检测模型,得到训练后的目标检测模型;基于所述训练后的目标检测模型对待检测图形数据进行检测,得到关联于所述待检测图形数据中的文字图形区的文字区域检测框。2.根据权利要求1所述的旋转文字检测方法,其特征在于:所述文字区域框标签值包括所述文字图形样本区的中心点的归一化坐标值、所述文字图形样本区的归一化宽度值、所述文字图形样本区的归一化高度值;所述归一化角度标签值通过下式获得:其中,为所述归一化角度标签值,为所述文字图形样本区相对于所述图形样本数据的坐标横轴的倾斜角度,。3.根据权利要求1所述的旋转文字检测方法,其特征在于:所述文字区域框预测值包括所述文字图形样本区的中心点在所述图形样本数据中的归一化坐标预测值、所述文字图形样本区的归一化宽度预测值、所述文字图形样本区的归一化高度预测值。4.根据权利要求1所述的旋转文字检测方法,其特征在于:所述文字区域框回归损失为广义交叉联合GIoU损失函数;所述角度归一化回归损失为光滑平均绝对值误差Smooth L1损失函数。5.根据权利要求1所述的旋转文字检测方法,其特征在于,所述根据所述文字区域框回归损失和所述角度归一化回归损失,得到关联于所述文字图形样本区的整体回归损失,包括:将所述文字区域框回归损失和所述角度归一化回归损失相加,得到所述整体回归损失。6.根据权利要求1所述的旋转文字检测方法,其特征在于,所述基于所述训练后的目标检测模型对待检测图形数据进行检测,得到关联于所述待检测图形数据中的文字图形区的
文字区域检测框,包括:将所述待检测图形数据输入所述训练后的目标检测模型,通过所述训练后的目标检测模型得到所述文字图形区的文字区域框检测值和角度归一化检测值;根据所述角度归一化检测值,得到角度值;根据所述文字区域框检测值和所述角度值,得到所述文字区域检测框。7.根据权利要求6所述的旋转文字检测方法,其特征在于:所述文字区域框检测值包括所述文字区域检测框的中心点的归一化坐标值、所述文字区域检测框...

【专利技术属性】
技术研发人员:张存义艾国杨作兴
申请(专利权)人:深圳比特微电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1