一种基于无向图和关键点检测的无监督场景文字分割方法技术

技术编号:38163092 阅读:11 留言:0更新日期:2023-07-13 09:37
本发明专利技术公开了一种基于无向图和关键点检测的无监督场景文字分割方法,涉及图像处理技术领域。该基于无向图和关键点检测的无监督场景文字分割方法,S1;构建整幅图像的无向图,该步骤的目的是将图像转化为一个无向图,从而方便后续的分割处理,S2;用OpenCV库中封装好的的SIFT算法来实现对图像进行关键点检测;S3;用OpenCV库中封装好的的SIFT算法来实现;S4;对每个分割区域提取几何特征,去除背景区域,保留字符区域,这些特征包括宽高比特征和字符边缘宽度特征,只有宽高比特征和字符边缘宽度特征小于设定阈值的区域才被认定为字符区域。本发明专利技术可以不需要大量的标注数据来检测场景文字,从而大大减少了人工标注的工作量。从而大大减少了人工标注的工作量。从而大大减少了人工标注的工作量。

【技术实现步骤摘要】
一种基于无向图和关键点检测的无监督场景文字分割方法


[0001]本专利技术涉及图像处理
,特别涉及一种基于无向图和关键点检测的无监督场景文字分割方法。

技术介绍

[0002]场景文字分割可以实现从整个场景图像中提取文本,从而帮助计算机视觉任务识别文本,具体来说,场景文字分割可以帮助以下任务:
[0003](1)文本检测:将文本和非文本区域分开,使得文本检测任务可以更加精准地识别文本。
[0004](2)文本识别:文本分割可以减少噪音和非文本干扰,提高文本识别的准确性。
[0005](3)文本翻译:对于需要翻译的文本场景,文本分割可以提高翻译系统的性能,从而提高翻译的准确性和质量。
[0006](4)场景理解:将场景分割成文本和非文本部分可以帮助计算机理解场景,识别和推理出场景中的元素和关系。
[0007]因此,场景文字分割对于很多计算机视觉和自然语言处理任务都有很大的意义。
[0008]目前,场景文字分割技术主要基于深度学习方法实现,具体包括以下3个方向:
[0009](1)基于卷积神经网络的方法:使用卷积神经网络对图像进行端到端的训练和分割。例如FCN(全卷积网络)、UNet、DeepLab等。
[0010](2)基于注意力机制的方法:把注意力机制引入神经网络中,使网络模型能够更加关注文本区域。
[0011](3)基于语义分割的方法:对于特定的场景,例如道路、建筑物等,利用语义信息来辅助文本分割。
[0012]虽然现有的场景文字分割技术已经取得了很大的进展,但仍然存在以下一些不足:
[0013](1)基于深度学习的场景文字分割方法需要大量的标注数据来训练模型,而人工标注的成本通常比较昂贵。
[0014](2)目前的场景文字分割方法主要是对一块文本区域(比如英文的一个单词)进行分割和检测,没有实现对于单词中的单个字符的分割,从而加大了场景文字识别的任务的难度,使得需要较为复杂的神经网络模型才能较好的实现场景文字识别。
[0015](3)对小文本的处理:对于小字体、低分辨率、模糊的文本,现有的场景文字分割技术仍然存在较大的挑战。

技术实现思路

[0016]本专利技术的目的在于至少解决现有技术中存在的技术问题之一,提供一种基于无向图和关键点检测的无监督场景文字分割方法,以解决上述
技术介绍
中提出的问题。
[0017]为实现上述目的,本专利技术提供如下技术方案:一种基于无向图和关键点检测的无
监督场景文字分割方法,S1;构建整幅图像的无向图,该步骤的目的是将图像转化为一个无向图,从而方便后续的分割处理,
[0018]S2;用OpenCV库中封装好的的SIFT算法来实现对图像进行关键点检测;
[0019]S3;用OpenCV库中封装好的的SIFT算法来实现;
[0020]S4;对每个分割区域提取几何特征,去除背景区域,保留字符区域,这些特征包括宽高比特征和字符边缘宽度特征,只有宽高比特征和字符边缘宽度特征小于设定阈值的区域才被认定为字符区域;
[0021]S5;后处理部分。
[0022]优选的,所述S1中的具体步骤是:
[0023]预处理:将原始图像转换成灰度图,并进行高斯模糊,以减少图像噪声;
[0024]节点生成:将图像中的每个像素点作为一个节点生成,这些节点之间没有边相连;
[0025]边生成:计算每个节点与其周围像素点之间的相似度,并将相似度作为两个节点之间的边的权值。常用的相似度计算方法包括基于像素强度的相似度计算、基于颜色直方图的相似度计算、基于梯度等特征的相似度计算等。我们的专利技术中采用的是像素强度的相似度计算方法;
[0026]加权无向图生成:基于上述节点和边的信息,构建一个加权无向图。该无向图中的节点表示图像中的像素点,边表示像素点之间的相似度,边的权值表示像素点之间的相似度值。
[0027]优选的,所述S2的具体步骤是:使用OpenCV的xfeatures2d模块的SIFT_create函数创建SIFT对象;
[0028]把读入的图像转换为灰度图像;
[0029]使用SIFT对象的detect函数对图像进行关键点检测。
[0030]优选的,S3具体步骤如下:
[0031]设置两个阈值MaxPixels和MaxSize,MaxPixels代表每个文本字符区域可能包含的最多的像素点个数,MaxSize代表每个文本字符区域最大的宽度和高度;
[0032]对检测到的关键点集合,以该集合中每个关键点为起点,应用最小生成树算法构建分割区域,具体步骤如下:
[0033]将宽度和高度都为MaxSize区域内的所有边按照权重从小到大排序;
[0034]依次遍历每条边,如果该边所连接的两个节点不在同一个连通块中,就将该边加入到生成树中,否则忽略该边。在加入一条边时,需要将该边所连接的两个节点合并为同一个连通块;
[0035]重复步骤,直到生成树中的边数达到MaxPixels

1条或者MaxSize区域内的剩余的边都属于另外一个连通块为止。最终,我们得到一棵最小生成树,其中包含了将所有节点连接起来的最短路径。在这里,最短路径的长度即为边的权重之和;
[0036]每一个关键点对应的最小生成树即为分割好的区域。
[0037]优选的,所述S5所述的后处理部分包含以下步骤:
[0038]去除小块区域:将面积较小的区域去除,可以通过设定一个面积的阈值来实现;
[0039]平滑边界:对相邻的区域边界进行平滑,以消除边界上的噪声和细节;
[0040]区域合并:将相邻的区域合并成一个更大的区域,可以通过设置区域间的相似度
度量方法来实现;
[0041]边缘细化:对分割后的边缘进行细化处理,使得边缘更加清晰,有利于后续的场景文字识别。
[0042]与现有技术相比,本专利技术的有益效果是:
[0043]相比于现有的基于深度学习的场景文字分割方法,我们的方法的主要优点如下:
[0044](1)不需要大量的标注数据:基于深度学习的场景文字检测方法需要大量的标注数据来训练模型,而基于无向图的分割方法可以不需要大量的标注数据来检测场景文字,从而大大减少了人工标注的工作量。
[0045](2)处理速度快:基于无向图的分割方法可以对图像进行快速的分割,避免了深度学习方法需要耗费大量计算资源(尤其是GPU)的问题,适合在计算资源有限的设备上运行。
[0046](3)适用于小数据集:对于一些场景文字数据集比较小的情况,基于无向图的分割方法可以比基于深度学习的方法更加稳定和可靠。
附图说明
[0047]下面结合附图和实施例对本专利技术进一步地说明:
[0048]图1为本专利技术的流程示意图。
具体实施方式
[0049]本部分将详细描述本专利技术的具体实施例,本专利技术之较佳实施例在附图中示出,附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无向图和关键点检测的无监督场景文字分割方法,其特征在于:S1;构建整幅图像的无向图,该步骤的目的是将图像转化为一个无向图,从而方便后续的分割处理,S2;用OpenCV库中封装好的的SIFT算法来实现对图像进行关键点检测;S3;用OpenCV库中封装好的的SIFT算法来实现;S4;对每个分割区域提取几何特征,去除背景区域,保留字符区域,这些特征包括宽高比特征和字符边缘宽度特征,只有宽高比特征和字符边缘宽度特征小于设定阈值的区域才被认定为字符区域;S5;后处理部分。2.根据权利要求1所述的一种基于无向图和关键点检测的无监督场景文字分割方法,其特征在于:所述S1中的具体步骤是:预处理:将原始图像转换成灰度图,并进行高斯模糊,以减少图像噪声;节点生成:将图像中的每个像素点作为一个节点生成,这些节点之间没有边相连;边生成:计算每个节点与其周围像素点之间的相似度,并将相似度作为两个节点之间的边的权值,常用的相似度计算方法包括基于像素强度的相似度计算、基于颜色直方图的相似度计算、基于梯度等特征的相似度计算等,发明中采用的是像素强度的相似度计算方法;加权无向图生成:基于上述节点和边的信息,构建一个加权无向图,该无向图中的节点表示图像中的像素点,边表示像素点之间的相似度,边的权值表示像素点之间的相似度值。3.根据权利要求2所述的一种基于无向图和关键点检测的无监督场景文字分割方法,其特征在于:所述S2的具体步骤是:使用OpenCV的xfeatures2d模块的SIFT_create函数创建SIFT对象;把读入的图像转换为灰度图像;使用SIFT对象的detec...

【专利技术属性】
技术研发人员:曾成斌
申请(专利权)人:贵州理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1