【技术实现步骤摘要】
一种社交网络中的自然场景图像文本检测方法
[0001]本专利技术属于社交网络
,具体涉及一种社交网络中的自然场景图像文本检测方法。
技术介绍
[0002]随着互联网的的发展和移动通讯设备的普及,用户不再仅仅在电脑端使用移动社交网络平台所提供的各种服务,而是随时随地在通过各种移动设备进行着个人的网上社交。在信息时代的大环境下,社交网络已成为人们线上沟通交流,传递信息最常用的工具。目前,社交网络中的用户越来越倾向于用图片来分享自己的生活状态和生活轨迹。文本作为人类文明的标志、信息交流的载体,广泛地存在与社交网络中的自然场景图像中,相较于图像中的其它自然场景内容,如:树木、行人、建筑物等各种景观,自然场景中的文字则具有更强的逻辑性与更概括的表达性,能提供更多的高层语义信息,准确地识别图像中的文本将有助于场景内容的分析与理解,有助于获取社交网络用户的生活足迹相关信息,对用户的社交关系分析起着极其重要的作用。
[0003]目前,针对自然场景文本处理的研究工作主要使用两大类方法。第一种是传统的自然场景文本检测方法,该方法又分为基于像素连通域分析的方法和基于滑动检测窗口的方法,该方法主要依赖于图像的像素和文本的形状、排列、笔画宽度等特征,首先获得文本候选区域,然后采用手动设计的特征对所获得的候选区域进行验证,以此确定图像中的文本信息区域。另一种是基于深度学习的自然场景文本检测方法,深度学习的方法通过神经网络模型组合低层特征从而形成高层特征来表示属性类别,并设计专用的损失函数让计算机自动并精准学习图像中文字信息的特征。 ...
【技术保护点】
【技术特征摘要】
1.一种社交网络中的自然场景图像文本检测方法,其特征在于,包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;训练多粒度特征融合模型的过程包括:S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;S6:将测试集中的数据输入到模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。2.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为0,清晰可见具有语义的文本标注框信息标为1。3.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;S32:采用ReLU激活函数对提取的四个粒度信息进行激活;S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;S34:将三个多粒度特征向量进行融合得到最终的预测特征。4.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;多粒度融合的表达式为:h
j
=concat(Unpool(f
j
‑1),f
j
)其中,j∈{2,3,4},concat(
·
)表示向量的拼接操作,Unpool(
·
)表示双线性插值计算;采用通道注意力机制对残差通道注意力网络进行改进的公式为:CA
i
=σ(W
i
h
i
+b
i
)其中,i,j∈{1,2,3},h
·
代表进行粒度融合后的特征向量,W
i
,W
j
代表可学习的参数,σ(
·
)代表sigmoid激活函数,CA
i
和RCA
j
分别代表生成的通道注意力权重值和残差通道注意力权重值。5.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,
得到最终的预测特征的表达式为:Z=σ(Pool(con...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。