System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于迭代优化与交叉知识增强的任意形状文本检测方法技术_技高网

基于迭代优化与交叉知识增强的任意形状文本检测方法技术

技术编号:41221504 阅读:5 留言:0更新日期:2024-05-09 23:41
本发明专利技术公开了基于迭代优化与交叉知识增强的任意形状文本检测方法,涉及自然场景文本检测技术领域。本发明专利技术与之前的文本信息检测相比,改进了现有边界迭代方法的处理流程复杂,仅应用于单一尺度下的特征,计算量较大,无法满足实际应用的要求的问题,通过语义分割获取表征先验信息并进行初始边界点的生成,并通过特征增强将表征先验语义信息与跨尺度特征信息进行融合使其特征具备丰富的语义信息,并通过一个统一的能够充分利用多尺度信息的边界迭代Transformer来预测边界偏移值从而不断优化初始边界点。本方法简单高效的网络流程可以大大降低网络复杂度并高效的利用跨尺度信息和表征语义信息使其能够兼顾实时检测的速度和性能要求。

【技术实现步骤摘要】

本专利技术涉及自然场景文本检测,尤其涉及基于迭代优化与交叉知识增强的任意形状文本检测方法


技术介绍

1、随着信息技术的迅速发展,各类图像视频设备在人类社会生活中得到了广泛地应用,海量增长的图像数据已成为当今社会获取信息的主要来源。这些设备在产生大量图像的同时,也蕴含着重要的文本信息,其特定的语义知识对场景内容理解至关重要。但受开放场景下光照、字体大小、形状、排布、语种、复杂背景等综合因素影响,相对成熟的光学字符识别(optical character recognition,ocr)已然不能适应复杂场景下的文本检测任务,因此,如何突破复杂场景下拍摄随机性对文本检测任务的限制,进而提高文本检测精度与效率,已成为实现场景语义理解与达到人类视觉认知的科学前沿问题。近年来,随着文本检测方法的发展,大致可分为两大类:自底向上(即首先检测像素或片段,然后通过各种后处理算法将这些成分聚合在一起,产生最终的检测结果)、自顶向下(即将每个文本目标当做一个整体来预测),然而这些方法都无法实现令人满意的性能要求。现有文献“progressivecontour regression for arbitrary-shape scene text detection.[c].ieeeconference on computer vision and pattern recognition,2021:7393-7402.”公开了一种边界迭代方案。该方案先利用骨干网络提取特征并增强后预测出初始文本边界的水平边界,然后再通过角点预测模块调整该边界为任意方向的矩形边界,最终通过边界点生成模块预测出任意形状的边界点。该方法虽然实现了更加高效的任意形状边界的生成,但由于复杂的处理流程和仅对单一尺度下特征进行应用,使得在网络的处理流程和特征的利用率上并不高效。

2、为了解决上述问题,本专利技术提出基于迭代优化与交叉知识增强的任意形状文本检测方法以解决复杂的处理流程和利用简单高效的网络结构来提升检测性能并减少计算量。


技术实现思路

1、本专利技术的目的在于提出基于迭代优化与交叉知识增强的任意形状文本检测方法以解决
技术介绍
中所提出的问题:

2、现有的文本检测方法处理流程复杂,仅应用于单一尺度下的特征,且计算量较大,无法满足实际应用的要求。

3、为了实现上述目的,本专利技术采用了如下技术方案:

4、基于迭代优化与交叉知识增强的任意形状文本检测方法,包括如下步骤:

5、s1:多尺度特征提取:将图片输入到骨干网络resnet50中得到不同尺度特征ci,通过fpn对ci进行融合得到upj;

6、s2:初始边界生成:通过三层膨胀卷积对多尺度特征进行语义分割得到先验语义特征图,并将所述先验语义特征图中的文本置信度图中大于阈值0.85的闭合区域生成边界候选框并采样若干个边界点作为核心点pc;

7、s3:特征增强:将s2中的先验语义特征图分别下采样并与s1中的upj特征进行信息融合得到增强后的特征fk;

8、s4:边界迭代优化:利用pc在f1上获取点特征pf作为初始点特征,每个pfq-1都通过边界transformer获取下一层的特征pfq来优化下层边界点坐标pcq。

9、优选地,所述s1中的fpn对ci进行融合得到upj的融合过程具体如下:

10、

11、其中,upj、upj-1表示第j个、第j-1层图像融合特征;concat()为连接函数;表示对第j层特征cj进行线性插值,其中j≤i;upconvj表示第j个具备deconvx2和两层2-d卷积的上采样模块;deconvx2表示具备两层2-d反卷积的反卷积模块。

12、优选地,s2中所述先验语义特征图包括文本置信度图、距离图和二维方向图。

13、优选地,所述s3中的信息融合过程具体如下:

14、

15、其中,函数利用线性插值将先验语义特征图与upk尺寸对齐。

16、优选地,所述s4中,pfq-1通过边界transformer获取下一层的特征pfq来优化边界点坐标的过程具体如下:

17、pfq-1通过自注意与多尺度交叉注意力,即sca获取下一层的特征pfq:

18、

19、其中,表示相加操作;q表示当前边界transformer的层数;f表示s3中增强后的所有特征f1,f2,f3;pcq-1表示上一层的边界点核心坐标;

20、最终的pfq通过一个具有三层全连接及1×1的带有relu激活函数的一维卷积的mlp进行偏移值poq的预测:

21、poq=mlp(pfq)

22、再与上一层的边界核心点坐标pcq-1进行相加得到下一层的边界核心点坐标pcq:

23、pcq=pcq-1+θ(poq-1)

24、其中,函数θ(poq-1)表示将上一层的边界核心点坐标poq-1的值规范化在16个像素点之内。

25、优选地,每个所述自注意与多尺度交叉注意力都拥有如下的统一结构:一个对头自注意力,即mhsa、交叉知识增强,即acka以及两个前向反馈网络,即ffn,具体如下:

26、

27、其中,表示相加操作;ffn1、ffn2分别表示第1个、第2个独立的ffn,其配备有若干个具备残差连接的全连接层;

28、所述acka具体如下:

29、

30、其中,t表示查询次数;l表示特征图的层数;n表示第n个注意力点;表示学习权重,其中c为对应的f的特征维度,cv为c/t;和δktln分别表示第n个点在第l层特征图上的第t次搜索的权重和偏移值;fl表示在s3中的第l层增强后特征;σl(pcq-1)表示归一化后的pcq-1坐标在第l层特征图上对应的位置。

31、与现有技术相比,本专利技术提供了基于迭代优化与交叉知识增强的任意形状文本检测方法,具备以下有益效果:

32、本专利技术提出一个高效的自然场景文本检测方法,针对现有的边界迭代优化方法复杂的处理流程和低效率的特征利用率上提出了一种基于边界迭代优化的交叉知识增强方法,其通过语义分割获取表征先验信息并进行初始边界点的生成,并通过特征增强将表征先验语义信息与跨尺度特征信息进行融合使其特征具备丰富的语义信息,并通过一个统一的能够充分利用多尺度信息的边界迭代transformer来预测边界偏移值从而不断优化初始边界点。本方法简单高效的网络流程可以大大降低网络复杂度并高效的利用跨尺度信息和表征语义信息使其能够兼顾实时检测的速度和性能要求。

本文档来自技高网...

【技术保护点】

1.基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征在于,所述S1中的FPN对Ci进行融合得到UPj的融合过程具体如下:

3.根据权利要求1所述的基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征在于,S2中所述先验语义特征图包括文本置信度图、距离图和二维方向图。

4.根据权利要求1所述的基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征在于,所述S3中的信息融合过程具体如下:

5.根据权利要求1所述的基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征在于,所述S4中,Pfq-1通过边界Transformer获取下一层的特征Pfq来优化边界点坐标的过程具体如下:

6.根据权利要求5所述的基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征在于,每个所述自注意与多尺度交叉注意力都拥有如下的统一结构:一个对头自注意力,即MHSA、交叉知识增强,即ACKA以及两个前向反馈网络,即FFN,具体如下:

...

【技术特征摘要】

1.基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征在于,所述s1中的fpn对ci进行融合得到upj的融合过程具体如下:

3.根据权利要求1所述的基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征在于,s2中所述先验语义特征图包括文本置信度图、距离图和二维方向图。

4.根据权利要求1所述的基于迭代优化与交叉知识增强的任意形状文本检测方法,其特征...

【专利技术属性】
技术研发人员:孙巍王乾宙崔睿嘉孔宪光
申请(专利权)人:西安邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1