System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种检测倾斜文本的方法及装置制造方法及图纸_技高网

一种检测倾斜文本的方法及装置制造方法及图纸

技术编号:41059041 阅读:2 留言:0更新日期:2024-04-24 11:10
本申请公开了一种检测倾斜文本的方法及装置,涉及人工智能领域。利用目标检测模型对图片数据进行检测,而本方案所使用的目标检测模型包含了回归子网络和角度分类子网络,此时能够同时结合基于回归的文本检测方法以及基于分类的文本检测方法两种文本检测方法的优点,因此目标检测模型具有较快的检测速度以及较高的检测准确度;同时,目标检测模型能够将通用的目标分类问题转变为角度分类问题,从而可以基于图片数据检测得到带有倾斜角度的文本框,并可以根据文本框的中心点、宽高和角度信息,得到图片数据中的倾斜文本。

【技术实现步骤摘要】

本申请涉及人工智能领域,特别是指一种检测倾斜文本的方法及装置


技术介绍

1、光学字符识别(optical character recognition,ocr)技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入的技术。

2、ocr技术可以细分为文本检测、文本识别和关键信息提取等不同技术。其中,文本检测往往分为如下两种类型:基于回归的文本检测方法以及基于分类的文本检测方法。前者检测速度更快,而后者检测准确度更高,然而如何将两种文本检测方法进行结合,使其能够适用于倾斜文本检测,目前并未有一种较好的方法。


技术实现思路

1、有鉴于此,本申请提供了一种检测倾斜文本的方法及装置,从而达到对倾斜文本进行检测,且检测速度较快、准确度较高的目的。

2、本申请提供的一种检测倾斜文本的方法是这样实现的:

3、获取待检测的图片数据,将图片数据输入目标检测模型中,目标检测模型包括:骨干网络以及基于anchor-free算法的头部网络,头部网络包括:回归子网络和角度分类子网络;

4、通过骨干网络对图片数据进行特征提取,得到图片特征;

5、通过回归子网络对图片特征进行回归,得到倾斜文本框的中心和宽高信息;通过角度分类子网络对图片特征进行角度分类,得到倾斜文本框的角度信息;

6、根据倾斜文本框的中心、宽高和角度信息,得到倾斜文本。

7、可选地,目标检测模型基于distribution focal loss函数以及rotated-iou函数计算回归损失。

8、可选地,目标检测模型基于variant focal loss函数计算角度分类损失。

9、可选地,骨干网络包含c2f模块以及sppf模块;

10、通过骨干网络对图片数据进行特征提取,得到图片特征,包括:

11、基于c2f模块,对图片数据进行剔除冗余信息处理,得到第一特征向量;

12、基于sppf模块,将第一特征向量转换为预设大小的特征向量,得到图片特征。

13、可选地,目标检测模型是基于task aligned assigner样本匹配策略进行训练得到的。

14、可选地,获取待检测的图片数据,将图片数据输入目标检测模型中之前,还包括:

15、将测试图片输入目标检测模型中,得到多个预测框;

16、基于task aligned assigner样本匹配策略,根据预先设置的回归权重以及角度分类权重,对预测框进行打分,得到预测框的预测分值;

17、根据多个预测框的预测分值,将预测分值最高的预设个数的预测框作为正样本。

18、可选地,将测试图片输入目标检测模型中,得到多个预测框之前,还包括:

19、利用训练样本集对初始模型进行训练,以得到目标检测模型,训练样本集中的样本图片包含:中心点标记、角度标记和宽高标记。

20、本申请还提供了一种检测倾斜文本的装置,包括:

21、输入模块,用于获取待检测的图片数据,将图片数据输入目标检测模型中,目标检测模型包括:骨干网络以及基于anchor-free算法的头部网络,头部网络包括:回归子网络和角度分类子网络;

22、提取模块,用于通过骨干网络对图片数据进行特征提取,得到图片特征;

23、检测模块,通过回归子网络对图片特征进行回归,得到倾斜文本框的中心和宽高信息;通过角度分类子网络对图片特征进行角度分类,得到倾斜文本框的角度信息;

24、得到模块,用于根据倾斜文本框的中心、宽高和角度信息,得到倾斜文本。

25、本申请还提供了一种计算机设备,包括:处理器,处理器与存储器耦合,存储器中存储有至少一条计算机程序指令,至少一条计算机程序指令由处理器加载并执行,以使计算机设备实现检测倾斜文本的方法。

26、本申请还提供了一种计算机存储介质,用于存储计算机程序,计算机程序被执行时,用于实现检测倾斜文本的方法。

27、因此,本申请的有益效果是:利用目标检测模型对图片数据进行检测,而本方案所使用的目标检测模型包含了回归子网络和角度分类子网络,此时能够同时结合基于回归的文本检测方法以及基于分类的文本检测方法两种文本检测方法的优点,因此目标检测模型具有较快的检测速度以及较高的检测准确度;同时,目标检测模型能够将通用的目标分类问题转变为角度分类问题,从而可以基于图片数据检测得到带有倾斜角度的文本框,并可以根据文本框的中心点、宽高和角度信息,得到图片数据中的倾斜文本。

本文档来自技高网...

【技术保护点】

1.一种检测倾斜文本的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标检测模型基于DistributionFocal Loss函数以及Rotated-IOU函数计算回归损失。

3.根据权利要求1所述的方法,其特征在于,所述目标检测模型基于VariantFocalLoss函数计算角度分类损失。

4.根据权利要求1所述的方法,其特征在于,所述骨干网络包含C2f模块以及SPPF模块;

5.根据权利要求1所述的方法,其特征在于,所述目标检测模型是基于Task AlignedAssigner样本匹配策略进行训练得到的。

6.根据权利要求5所述的方法,其特征在于,所述获取待检测的图片数据,将所述图片数据输入目标检测模型中之前,还包括:

7.根据权利要求6所述的方法,其特征在于,所述将测试图片输入所述目标检测模型中,得到多个预测框之前,还包括:

8.一种检测倾斜文本的装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:处理器,所述处理器与存储器耦合,所述存储器中存储有至少一条计算机程序指令,所述至少一条计算机程序指令由所述处理器加载并执行,以使所述计算机设备实现权利要求1-7中任一项所述的方法。

10.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种检测倾斜文本的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标检测模型基于distributionfocal loss函数以及rotated-iou函数计算回归损失。

3.根据权利要求1所述的方法,其特征在于,所述目标检测模型基于variantfocalloss函数计算角度分类损失。

4.根据权利要求1所述的方法,其特征在于,所述骨干网络包含c2f模块以及sppf模块;

5.根据权利要求1所述的方法,其特征在于,所述目标检测模型是基于task alignedassigner样本匹配策略进行训练得到的。

6.根据权利要求5所述的方法,其特征在...

【专利技术属性】
技术研发人员:王怀照欧阳晔
申请(专利权)人:广州亚信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1