当前位置: 首页 > 专利查询>福州大学专利>正文

基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法技术

技术编号:39040895 阅读:11 留言:0更新日期:2023-10-10 11:53
本发明专利技术针对模型训练速度慢和现有方法检测极端长宽比文本实例效果差等问题,提出了一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法,将文本实例的空间信息融入早期的模型训练中,加快模型收敛速度,并利用通道注意力和空间注意力机制帮助模型关注包含语义信息的像素点,最后利用独立分配权重的标签分配策略帮助模型学习难样本,以提升模型的鲁棒性。的鲁棒性。的鲁棒性。

【技术实现步骤摘要】
基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法


[0001]本专利技术属于计算机视觉理解
,具体涉及一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法。

技术介绍

[0002]近年来人工智能技术飞快发展,利用深度学习来处理生活中的一些自然场景文本,即自然场景文本检测与识别成为了热门技术。自然场景文本检测与识别是计算机视觉和人工智能领域中非常重要的研究领域,它主要研究机器能否正确地理解图片,从而完成对图片中目标的检测和识别。

技术实现思路

[0003]本专利技术针对模型训练速度慢和现有方法检测极端长宽比文本实例效果差等问题,提出了一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法,将文本实例的空间信息融入早期的模型训练中,加快模型收敛速度,并利用通道注意力和空间注意力机制帮助模型关注包含语义信息的像素点,最后利用独立分配权重的标签分配策略帮助模型学习难样本,以提升模型的鲁棒性。
[0004]本专利技术能够实现利用深度学习完成对自然场景文本进行检测和识别,且该方法推理速度快且性能优于其他现有方法。
[0005]其首先利用获取自然场景文本图像数据集,将数据集中的图片输入至词聚焦骨干网络中,将自然图像的空间信息融入到骨干网络中,加速模型收敛,在跨层连接中加入形变卷积,使得网络能够更好地处理特征图尺度的变化;然后得到的特征图输入至自适应特征筛选网络,利用空间注意力和通道注意力相融合的方法,帮助模型自适应筛选包含文本实例语义信息的特征,并使用残差结构使之与原特征融合;再将融合后的特征输入至概率图生成头部,利用概率图生成头部预测文本实例的像素点,并使用像素聚合算法得出文本实例的边界;最后利用强化一致性的标签分配策略,帮助模型学习难样本,提升模型的鲁棒性。
[0006]本专利技术解决其技术问题具体采用的技术方案是:
[0007]一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法,包括以下步骤;
[0008]步骤S1:获取自然场景文本图像数据集,将数据集中的图片输入至词聚焦骨干网络中,将自然图像的空间信息融入到骨干网络中,以加速模型收敛,在跨层连接中加入形变卷积,使得网络能够更好地处理特征图尺度的变化;
[0009]步骤S2:将得到的特征图输入至自适应特征筛选网络,利用空间注意力和通道注意力相融合的方法,帮助模型自适应筛选包含文本实例语义信息的特征,并使用残差结构使筛选后的特征与原特征融合;
[0010]步骤S3:将融合后的特征输入至概率图生成头部,利用概率图生成头部预测文本实例的像素点,并使用像素聚合算法得出文本实例的边界。
[0011]进一步地,步骤S1具体包括以下步骤;
[0012]步骤S11:获取公开自然场景文字数据集;
[0013]步骤S12:将数据集中的文本区域中对应的文字也记录到json文件中,以方便后续识别;
[0014]步骤S13:将图像按批次输入到词聚焦骨干网络中;得到四个不同尺度大小的特征图,其大小分别为原图的1/4、1/8、1/16、1/32;
[0015]所述词聚焦骨干网络基于ResNet50结构,在Stage0层,将图像的空间信息与原图一起输入至由卷积

批归一化层

GeLU激活函数

最大池化层构成的结构中,再将Stage0的输入输入至Stage1、Stage2、Stage3、Stage4中;将Stage2、Stage3、Stage4中的Bottleneck结构,即由1
×
1卷积、3
×
3卷积、1
×
1卷积的结构,替换为1
×
1卷积、3
×
3可变形卷积、1
×
1卷积的结构。
[0016]进一步地,步骤S2具体包括以下步骤;
[0017]步骤S21:将步骤S13输出的特征图统一缩放至原图的1/4大小,并输入至自适应特征筛选网络中;所述自适应特征筛选网络由卷积、空间注意力模块、通道注意力模块构成,如下式所示:
[0018]F
Attention_out
=Conv3×3(ChannelAttention(SpaceAttention(F
neck_in
)))公式一
[0019]其中,F
neck_in
是自适应特征筛选网络的输入特征,Conv3×3是卷积核大小3
×
3的卷积层,F
Attention_out
是输入特征经过通道注意力模块和空间注意力模块后得到的特征,ChannelAttention为通道注意力模块,SpaceAttention为空间注意力模块;所述通道注意力模块对特征图进行空间平均池化,并通过卷积层和GeLU激活函数层后,再使之与原输入特征相加,得到通道维度的注意力权重;所述空间注意力模块对特征图进行通道平均池化,并通过卷积层和GeLU激活函数层后,再使之与原输入特征相加,得到空间维度的注意力权重;
[0020]步骤S22:将经过自适应筛选的特征F
Attention_out
与输入特征F
neck_in
相加,并输入至3
×
3的卷积层中,得到融合后的特征F
neck_out
,如公式二所示:
[0021]F
neck_out
=Conv3×3(F
neck_in
+F
Attention
_
out
)公式二。
[0022]进一步地,步骤S3具体包括以下步骤;
[0023]步骤S31:利用可微分二值化函数来预测文本实例的像素;如公式三所示:
[0024][0025]其中B
i,j
代表利用可微分二值化函数生成的阈值图,T
i,j
代表由网络学习得到的动态阈值图,P
i,j
代表模型生成的概率图,i,j代表对应图的横纵坐标,用于将近似二值化函数拟合标准二值化曲线;以实现将文本实例和背景区分开,利用像素聚合算法预测出文本实例的边界;
[0026]步骤S32:使用损失函数训练模型,损失函数如公式四所示:
[0027]L=L
cls
+5L
T
公式四
[0028]其中,L
cls
由交叉熵损失构成,阈值图损失L
T
由文字实例边界和预测的像素之间的
L1损失构成,L1损失如公式五所示:
[0029][0030]其中R
D
表示经过Vatti剪裁算法计算得到的文字边界区间,y
i
表示区间上的坐标,x
i
表示模型预测的像素坐标;而R
D
由将标注信息经过Vatti剪裁算法膨胀后得到的多边形G
D
减去标注信息经过Vatti剪裁算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法,其特征在于,包括以下步骤;步骤S1:获取自然场景文本图像数据集,将数据集中的图片输入至词聚焦骨干网络中,将自然图像的空间信息融入到骨干网络中,以加速模型收敛,在跨层连接中加入形变卷积,使得网络能够更好地处理特征图尺度的变化;步骤S2:将得到的特征图输入至自适应特征筛选网络,利用空间注意力和通道注意力相融合的方法,帮助模型自适应筛选包含文本实例语义信息的特征,并使用残差结构使筛选后的特征与原特征融合;步骤S3:将融合后的特征输入至概率图生成头部,利用概率图生成头部预测文本实例的像素点,并使用像素聚合算法得出文本实例的边界。2.根据权利要求1所述的基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法,其特征在于:步骤S1具体包括以下步骤;步骤S11:获取公开自然场景文字数据集;步骤S12:将数据集中的文本区域中对应的文字也记录到json文件中,以方便后续识别;步骤S13:将图像按批次输入到词聚焦骨干网络中;得到四个不同尺度大小的特征图,其大小分别为原图的1/4、1/8、1/16、1/32;所述词聚焦骨干网络基于ResNet50结构,在Stage0层,将图像的空间信息与原图一起输入至由卷积

批归一化层

GeLU激活函数

最大池化层构成的结构中,再将Stage0的输入输入至Stage1、Stage2、Stage3、Stage4中;将Stage2、Stage3、Stage4中的Bottleneck结构,即由1
×
1卷积、3
×
3卷积、1
×
1卷积的结构,替换为1
×
1卷积、3
×
3可变形卷积、1
×
1卷积的结构。3.根据权利要求2所述的基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法,其特征在于:步骤S2具体包括以下步骤;步骤S21:将步骤S13输出的特征图统一缩放至原图的1/4大小,并输入至自适应特征筛选网络中;所述自适应特征筛选网络由卷积、空间注意力模块、通道注意力模块构成,如下式所示:F
Attention_out
=Conv3×3(ChannelAttention(SpaceAttention(F
neck_in
)))公式一其中,F
neck_in
是自适应特征筛选网络的输入特征,Conv3×3是卷积核大小3
×
3的卷积层,F
Attention_out
是输入特征经过通道注意力模块和空间注意力模块后得到的特征,ChannelAttention为通道注意力模块,SpaceAttention为空间注意力模块;所述通道注意力模块对特征图进行空间平均池化,并通过卷积层和GeLU激活函数层后,再使之与原输入特征相加,得到通道维度的注意力权重;所述空间注意力模块对特征图进行通道平均池化,并通过卷积层和GeLU激活函数层后,再使之与原输入特征相加,得到空间维度的注意力权重;步骤S22:将经过自适应筛选的特征F
Attention_out
与输入特征F
neck_in
相加,并输入至3
×
3的卷积层中,得到融合后的特征F
neck_out
,如公式二所示:
F
neck_out
=Conv3×3(F
neck_in
+F
Atte...

【专利技术属性】
技术研发人员:柯逍卢恺翔
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1