基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法技术

技术编号：39040895 阅读：11 留言：0更新日期：2023-10-10 11:53

本发明专利技术针对模型训练速度慢和现有方法检测极端长宽比文本实例效果差等问题，提出了一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法，将文本实例的空间信息融入早期的模型训练中，加快模型收敛速度，并利用通道注意力和空间注意力机制帮助模型关注包含语义信息的像素点，最后利用独立分配权重的标签分配策略帮助模型学习难样本，以提升模型的鲁棒性。的鲁棒性。的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法

[0001]本专利技术属于计算机视觉理解
，具体涉及一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法。

技术介绍

[0002]近年来人工智能技术飞快发展，利用深度学习来处理生活中的一些自然场景文本，即自然场景文本检测与识别成为了热门技术。自然场景文本检测与识别是计算机视觉和人工智能领域中非常重要的研究领域，它主要研究机器能否正确地理解图片，从而完成对图片中目标的检测和识别。

技术实现思路

[0003]本专利技术针对模型训练速度慢和现有方法检测极端长宽比文本实例效果差等问题，提出了一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法，将文本实例的空间信息融入早期的模型训练中，加快模型收敛速度，并利用通道注意力和空间注意力机制帮助模型关注包含语义信息的像素点，最后利用独立分配权重的标签分配策略帮助模型学习难样本，以提升模型的鲁棒性。
[0004]本专利技术能够实现利用深度学习完成对自然场景文本进行检测和识别，且该方法推理速度快且性能优于其他现有方法。
[0005]其首先利用获取自然场景文本图像数据集，将数据集中的图片输入至词聚焦骨干网络中，将自然图像的空间信息融入到骨干网络中，加速模型收敛，在跨层连接中加入形变卷积，使得网络能够更好地处理特征图尺度的变化；然后得到的特征图输入至自适应特征筛选网络，利用空间注意力和通道注意力相融合的方法，帮助模型自适应筛选包含文本实例语义信息的特征，并使用残差结构使之与原特征融合；...

【技术保护点】

【技术特征摘要】
1.一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法，其特征在于，包括以下步骤；步骤S1：获取自然场景文本图像数据集，将数据集中的图片输入至词聚焦骨干网络中，将自然图像的空间信息融入到骨干网络中，以加速模型收敛，在跨层连接中加入形变卷积，使得网络能够更好地处理特征图尺度的变化；步骤S2：将得到的特征图输入至自适应特征筛选网络，利用空间注意力和通道注意力相融合的方法，帮助模型自适应筛选包含文本实例语义信息的特征，并使用残差结构使筛选后的特征与原特征融合；步骤S3：将融合后的特征输入至概率图生成头部，利用概率图生成头部预测文本实例的像素点，并使用像素聚合算法得出文本实例的边界。2.根据权利要求1所述的基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法，其特征在于：步骤S1具体包括以下步骤；步骤S11：获取公开自然场景文字数据集；步骤S12：将数据集中的文本区域中对应的文字也记录到json文件中，以方便后续识别；步骤S13：将图像按批次输入到词聚焦骨干网络中；得到四个不同尺度大小的特征图，其大小分别为原图的1/4、1/8、1/16、1/32；所述词聚焦骨干网络基于ResNet50结构，在Stage0层，将图像的空间信息与原图一起输入至由卷积
‑
批归一化层
‑
GeLU激活函数
‑
最大池化层构成的结构中，再将Stage0的输入输入至Stage1、Stage2、Stage3、Stage4中；将Stage2、Stage3、Stage4中的Bottleneck结构，即由1
×
1卷积、3
×
3卷积、1
×
1卷积的结构，替换为1
×
1卷积、3
×
3可变形卷积、1
×
1卷积的结构。3.根据权利要求2所述的基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法，其特征在于：步骤S2具体包括以下步骤；步骤S21：将步骤S13输出的特征图统一缩放至原图的1/4大小，并输入至自适应特征筛选网络中；所述自适应特征筛选网络由卷积、空间注意力模块、通道注意力模块构成，如下式所示：F
Attention_out
＝Conv3×3(ChannelAttention(SpaceAttention(F
neck_in
)))公式一其中，F
neck_in
是自适应特征筛选网络的输入特征，Conv3×3是卷积核大小3
×
3的卷积层，F
Attention_out
是输入特征经过通道注意力模块和空间注意力模块后得到的特征，ChannelAttention为通道注意力模块，SpaceAttention为空间注意力模块；所述通道注意力模块对特征图进行空间平均池化，并通过卷积层和GeLU激活函数层后，再使之与原输入特征相加，得到通道维度的注意力权重；所述空间注意力模块对特征图进行通道平均池化，并通过卷积层和GeLU激活函数层后，再使之与原输入特征相加，得到空间维度的注意力权重；步骤S22：将经过自适应筛选的特征F
Attention_out
与输入特征F
neck_in
相加，并输入至3
×
3的卷积层中，得到融合后的特征F
neck_out
，如公式二所示：
F
neck_out
＝Conv3×3(F
neck_in
+F
Atte...

【专利技术属性】
技术研发人员：柯逍，卢恺翔，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人