一种基于无向图和关键点检测的无监督场景文字分割方法技术

技术编号：38163092 阅读：11 留言：0更新日期：2023-07-13 09:37

本发明专利技术公开了一种基于无向图和关键点检测的无监督场景文字分割方法，涉及图像处理技术领域。该基于无向图和关键点检测的无监督场景文字分割方法，S1；构建整幅图像的无向图，该步骤的目的是将图像转化为一个无向图，从而方便后续的分割处理，S2；用OpenCV库中封装好的的SIFT算法来实现对图像进行关键点检测；S3；用OpenCV库中封装好的的SIFT算法来实现；S4；对每个分割区域提取几何特征，去除背景区域，保留字符区域，这些特征包括宽高比特征和字符边缘宽度特征，只有宽高比特征和字符边缘宽度特征小于设定阈值的区域才被认定为字符区域。本发明专利技术可以不需要大量的标注数据来检测场景文字，从而大大减少了人工标注的工作量。从而大大减少了人工标注的工作量。从而大大减少了人工标注的工作量。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于无向图和关键点检测的无监督场景文字分割方法

[0001]本专利技术涉及图像处理
，特别涉及一种基于无向图和关键点检测的无监督场景文字分割方法。

技术介绍

[0002]场景文字分割可以实现从整个场景图像中提取文本，从而帮助计算机视觉任务识别文本，具体来说，场景文字分割可以帮助以下任务：
[0003](1)文本检测：将文本和非文本区域分开，使得文本检测任务可以更加精准地识别文本。
[0004](2)文本识别：文本分割可以减少噪音和非文本干扰，提高文本识别的准确性。
[0005](3)文本翻译：对于需要翻译的文本场景，文本分割可以提高翻译系统的性能，从而提高翻译的准确性和质量。
[0006](4)场景理解：将场景分割成文本和非文本部分可以帮助计算机理解场景，识别和推理出场景中的元素和关系。
[0007]因此，场景文字分割对于很多计算机视觉和自然语言处理任务都有很大的意义。
[0008]目前，场景文字分割技术主要基于深度学习方法实现，具体包括以下3个方向：
[0009](1)基于卷积神经网络的方法：使用卷积神经网络对图像进行端到端的训练和分割。例如FCN(全卷积网络)、UNet、DeepLab等。
[0010](2)基于注意力机制的方法：把注意力机制引入神经网络中，使网络模型能够更加关注文本区域。
[0011](3)基于语义分割的方法：对于特定的场景，例如道路、建筑物等，利用语义信息来辅助文本分割。
[0012]虽然现有的场景文字分...

【技术保护点】

【技术特征摘要】
1.一种基于无向图和关键点检测的无监督场景文字分割方法，其特征在于：S1；构建整幅图像的无向图，该步骤的目的是将图像转化为一个无向图，从而方便后续的分割处理，S2；用OpenCV库中封装好的的SIFT算法来实现对图像进行关键点检测；S3；用OpenCV库中封装好的的SIFT算法来实现；S4；对每个分割区域提取几何特征，去除背景区域，保留字符区域，这些特征包括宽高比特征和字符边缘宽度特征，只有宽高比特征和字符边缘宽度特征小于设定阈值的区域才被认定为字符区域；S5；后处理部分。2.根据权利要求1所述的一种基于无向图和关键点检测的无监督场景文字分割方法，其特征在于：所述S1中的具体步骤是：预处理：将原始图像转换成灰度图，并进行高斯模糊，以减少图像噪声；节点生成：将图像中的每个像素点作为一个节点生成，这些节点之间没有边相连；边生成：计算每个节点与其周围像素点之间的相似度，并将相似度作为两个节点之间的边的权值，常用的相似度计算方法包括基于像素强度的相似度计算、基于颜色直方图的相似度计算、基于梯度等特征的相似度计算等，发明中采用的是像素强度的相似度计算方法；加权无向图生成：基于上述节点和边的信息，构建一个加权无向图，该无向图中的节点表示图像中的像素点，边表示像素点之间的相似度，边的权值表示像素点之间的相似度值。3.根据权利要求2所述的一种基于无向图和关键点检测的无监督场景文字分割方法，其特征在于：所述S2的具体步骤是：使用OpenCV的xfeatures2d模块的SIFT_create函数创建SIFT对象；把读入的图像转换为灰度图像；使用SIFT对象的detec...

【专利技术属性】
技术研发人员：曾成斌，
申请(专利权)人：贵州理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人