一种社交网络中的自然场景图像文本检测方法技术

技术编号:28789299 阅读:20 留言:0更新日期:2021-06-09 11:25
本发明专利技术属于社交网络技术领域,具体涉及一种社交网络中的自然场景图像文本检测方法,该方法包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;本发明专利技术不仅可以提高图像中的文本检测准确率,而且减少了复杂模型所需要的时间开销,优化了自然场景下复杂环境对图像中文本检测的影响。对图像中文本检测的影响。对图像中文本检测的影响。

【技术实现步骤摘要】
一种社交网络中的自然场景图像文本检测方法


[0001]本专利技术属于社交网络
,具体涉及一种社交网络中的自然场景图像文本检测方法。

技术介绍

[0002]随着互联网的的发展和移动通讯设备的普及,用户不再仅仅在电脑端使用移动社交网络平台所提供的各种服务,而是随时随地在通过各种移动设备进行着个人的网上社交。在信息时代的大环境下,社交网络已成为人们线上沟通交流,传递信息最常用的工具。目前,社交网络中的用户越来越倾向于用图片来分享自己的生活状态和生活轨迹。文本作为人类文明的标志、信息交流的载体,广泛地存在与社交网络中的自然场景图像中,相较于图像中的其它自然场景内容,如:树木、行人、建筑物等各种景观,自然场景中的文字则具有更强的逻辑性与更概括的表达性,能提供更多的高层语义信息,准确地识别图像中的文本将有助于场景内容的分析与理解,有助于获取社交网络用户的生活足迹相关信息,对用户的社交关系分析起着极其重要的作用。
[0003]目前,针对自然场景文本处理的研究工作主要使用两大类方法。第一种是传统的自然场景文本检测方法,该方法又分为基于像素连通域分析的方法和基于滑动检测窗口的方法,该方法主要依赖于图像的像素和文本的形状、排列、笔画宽度等特征,首先获得文本候选区域,然后采用手动设计的特征对所获得的候选区域进行验证,以此确定图像中的文本信息区域。另一种是基于深度学习的自然场景文本检测方法,深度学习的方法通过神经网络模型组合低层特征从而形成高层特征来表示属性类别,并设计专用的损失函数让计算机自动并精准学习图像中文字信息的特征。
[0004]但是由于目前对深度神经网络模型的鲁棒性要求越来越高,过于复杂以及多方向与形变文本检测的问题,因此需要综合鲁棒性和模型检测精确度,以达到对社交网络中的图像进行有效分析。

技术实现思路

[0005]为解决以上现有技术存在的问题,本专利技术提出了一种社交网络中的自然场景图像文本检测方法,该方法包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;
[0006]训练多粒度特征融合模型的过程包括:
[0007]S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;
[0008]S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;
[0009]S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;
[0010]S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;
[0011]S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;
[0012]S6:将测试集中的数据输入到模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。
[0013]优选的,对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为0,清晰可见具有语义的文本标注框信息标为1。
[0014]优选的,将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:
[0015]S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;
[0016]S32:采用ReLU激活函数对提取的四个粒度信息进行激活;
[0017]S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;
[0018]S34:将三个多粒度特征向量进行融合得到最终的预测特征。
[0019]进一步的,在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;多粒度融合的表达式为:
[0020]h
j
=concat(Unpool(f
j
‑1),f
j
)
[0021]其中,j∈{2,3,4},concat(
·
)表示向量的拼接操作,Unpool(
·
)表示双线性插值计算;
[0022]采用通道注意力机制对残差通道注意力网络进行改进的公式为:
[0023]CA
i
=σ(W
i
h
i
+b
i
)
[0024][0025]其中,i,j∈{1,2,3},h
·
代表进行粒度融合后的特征向量,W
i
,W
j
代表可学习的参数,σ(
·
)代表sigmoid激活函数,CA
i
和RCA
j
分别代表生成的通道注意力权重值和残差通道注意力权重值。
[0026]进一步的,得到最终的预测特征的表达式为:
[0027]Z=σ(Pool(concat(RCA1,RCA2,RCA3)))
[0028]其中,concat(
·
)表示向量的拼接操作,Pool(
·
)表示最大池化,σ(
·
)表示ReLU激活函数。
[0029]优选的,计算模型的损失函数的过程为:
[0030]S51:确定模型的损失函数种类,包括分数图损失和几何图损失;
[0031]S52:采用Dice损失函数对分数图进行优化,得到分数图损失L
s

[0032]S53:采用IOU损失函数对几何图进行优化,得到几何图损失L
g

[0033]S54:根据分数图损失L
s
和几何图损失L
g
得到模型的损失函数。
[0034]进一步的,分数图损失L
s
的表达式为:
[0035][0036]其中,y
true
和y
pred
分别表示分数图的真实值和预测值。
[0037]进一步的,得到几何图损失L
g
的过程包括:
[0038]S531:采用IOU损失函数对矩形框进行优化,优化后的表达式为:
[0039][0040]其中,L
R
表示回归矩形框损失,表示预测的几何形状,R
*
表示真实的几何形状,∩表示相交,∪表示相并;
[0041]S532:计算相交矩形的宽度和高度以及联合区域;根据联合区域以及相交矩形区域计算旋转角度损失;旋转角度损失的表达式为:
[0042][本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交网络中的自然场景图像文本检测方法,其特征在于,包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;训练多粒度特征融合模型的过程包括:S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;S6:将测试集中的数据输入到模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。2.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为0,清晰可见具有语义的文本标注框信息标为1。3.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;S32:采用ReLU激活函数对提取的四个粒度信息进行激活;S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;S34:将三个多粒度特征向量进行融合得到最终的预测特征。4.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;多粒度融合的表达式为:h
j
=concat(Unpool(f
j
‑1),f
j
)其中,j∈{2,3,4},concat(
·
)表示向量的拼接操作,Unpool(
·
)表示双线性插值计算;采用通道注意力机制对残差通道注意力网络进行改进的公式为:CA
i
=σ(W
i
h
i
+b
i
)其中,i,j∈{1,2,3},h
·
代表进行粒度融合后的特征向量,W
i
,W
j
代表可学习的参数,σ(
·
)代表sigmoid激活函数,CA
i
和RCA
j
分别代表生成的通道注意力权重值和残差通道注意力权重值。5.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,
得到最终的预测特征的表达式为:Z=σ(Pool(con...

【专利技术属性】
技术研发人员:王国胤陈卓刘群
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1