基于对比学习在像素点块层面提取特征的文本检测方法技术

技术编号：41323154 阅读：4 留言：0更新日期：2024-05-13 15:01

本申请实施例涉及图像处理技术领域，特别涉及一种基于对比学习在像素点块层面提取特征的文本检测方法，包括：将样本图像输入至初始模型中，获得初始模型的主干网络输出的特征图像，并获得初始模型输出的样本图像的文本检测结果；对所述特征图像进行区域划分，基于特征图像的不同的区域的特征点和对比学习损失，构建第一损失函数；根据样本图像的文本检测结果在样本图像上进行文本分割，确定分割出的文本区域的二级标签，并基于二级标签构建第二损失函数；根据第一损失函数和第二损失函数将初始模型进行迭代训练至收敛，得到文本检测模型；将待检测图像输入至所述文本检测模型中，获得待检测图像的文本检测结果，大幅提升了文本检测的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及图像处理，特别涉及一种基于对比学习在像素点块层面提取特征的文本检测方法。

技术介绍

1、场景文本检测技术是指在自然场景中，通过计算机视觉技术来自动检测和识别出图像或视频中的文本区域的过程。该技术主要关注于从图像或视频中准确地定位和提取出存在于自然场景中的文本信息。与传统的ocr(optical character recognition，光学字符识别)技术不同，场景文本检测技术需要面对包含复杂背景、变化的文字样式、不规则形状和多方向文本等一系列的挑战性问题。目前业内的场景文本检测技术主要分为两大类，一类是基于回归的场景文本检测，另一类是基于分割的场景文本检测。

2、基于回归的场景文本检测通过回归的方式来实现特征提取，并用于场景文本检测，这种方法可以实现对水平文本、垂直文本和倾斜文本的检测，但无法很好地拟合弯曲文本，既无法对弯曲文本进行场景文本检测。

3、基于分割的场景文本检测分割出文本区域来实现场景文本检测，但使用这种方法时，小尺寸的文本区域可能被模糊或错误地分割，导致检测精度的下降。另外，当文本区域存在于复杂背景中时，复杂背景可能会干扰文本区域的分割，导致无法准确地检测到文本区域。

技术实现思路

1、本申请实施例的目的在于提供一种基于对比学习在像素点块层面提取特征的文本检测方法，能够有效地区分文本信息和干扰信息，准确地将文本特征提取出来，从而大幅提升文本检测的精度。

2、为实现上述目的，本申请的实施例提供了一种基于对比学习在像素

3、为实现上述目的，本申请的实施例还提供一种基于对比学习在像素点块层面提取特征的文本检测系统，所述系统包括模型训练模组和模型使用模组，所述模型训练模组包括获取单元、第一损失函数构建单元、第二损失函数构建单元和训练执行单元；所述获取单元用于获取样本图像，将所述样本图像输入至初始模型中，获得所述初始模型的主干网络输出的特征图像，并获得所述初始模型基于所述特征图像输出的所述样本图像的文本检测结果；所述第一损失函数构建单元用于对所述特征图像进行区域划分，基于对比学习思想和所述特征图像的不同的区域的特征点，构建第一损失函数；所述第二损失函数构建单元用于根据所述样本图像的文本检测结果在所述样本图像上进行文本分割，确定分割出的文本区域对应的二级标签，并基于所述二级标签构建第二损失函数，所述二级标签为模糊标签或假阳性标签，所述模糊标签用于表征所述分割出的文本区域的模糊语义聚类类别，所述假阳性标签用于表征所述分割出的文本区域为背景干扰信息；所述训练执行单元用于根据所述第一损失函数和所述第二损失函数对所述初始模型进行迭代训练至收敛，得到训练完成的文本检测模型；所述模型使用模组用于将待检测图像输入至所述文本检测模型中，获得所述待检测图像的文本检测结果。

4、为实现上述目的，本申请的实施例还提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于对比学习在像素点块层面提取特征的文本检测方法。

5、为实现上述目的，本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现上述的基于对比学习在像素点块层面提取特征的文本检测方法。

6、本申请的实施例提出的基于对比学习在像素点块层面提取特征的文本检测方法，在像素点层面，相较于传统的文本检测方法，本申请利用对比学习的思想，将样本图像的文本区域划分为多对不同的正负样本(不同的区域)，通过学习正负样本对之间的差异，提高文本特征的可区分性，训练出的文本检测模型能够从图像中精确地提取文本特征以进行文本检测，实现对文本边界更精确的检测。在像素块层面，本申请可以在复杂背景和模糊文本等挑战性场景下，通过模糊语义聚类赋予二级标签，准确地区分真实文本样本和建筑物花纹等假阳性样本，具备更强的对抗干扰信息的分辨能力，有效提高了文本检测的鲁棒性和准确性。最终训练得到的文本检测模型，对于包含任意形状文本的图片，无论是弯曲文本还是倾斜文本，都能够实现较为准确的特征提取，大幅提升了文本检测模型的普适性和泛化能力，具有重要的实际应用价值，能够推动文本图像处理领域的发展。

7、在一些可选的实施例中，所述对所述特征图像进行区域划分，基于对比学习思想和所述特征图像的不同的区域的特征点，构建第一损失函数，包括：将所述样本图像上标注的文本区域依次向外扩张一次和向内收缩三次，从外向内依次得到hard background区域、easy gap positive区域、hard gap positive区域、hard positive区域和easy positive区域；根据所述样本图像上的五种区域，在所述特征图像上进行区域划分；基于infonce损失，将所述特征图像的hard positive区域的特征点和所述特征图像的easy positive区域的特征点映射到相近空间中，将所述特征图像的easy gap positive区域的特征点和所述特征图像的hard gap positive区域的特征点映射到相近空间中，将所述特征图像的hardbackground区域的特征点和所述特征图像的easy gap positive区域的特征点映射到较远空间中，构建得到第一损失函数；其中，所述映射到相近空间中为最小化所述infonce损失，所述映射到较远空间中为最大化所述infonce损失。第一损失函数的存在，强化了对正负样本的对抗学习，hard background区域、easy gap positive区域、hard gap positive区域、hard positive区域和easy positive区域共五个区域的划分，帮助模型更好地区分文本区域和背景区域，进一步提升了训练出的文本检测模型的检测能力。

8、在一些可选的实施例中，每次向外扩张和向内收缩的偏移量通过以下公式确定：

9、

10、其中，a为所述标注的文本区域的面积，l为所述标注的文本本文档来自技高网...

【技术保护点】

1.一种基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，包括：

2.根据权利要求1所述的基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，所述对所述特征图像进行区域划分，基于对比学习思想和所述特征图像的不同的区域的特征点，构建第一损失函数，包括：

3.根据权利要求2所述的基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，每次向外扩张和向内收缩的偏移量通过以下公式确定：

4.根据权利要求2所述的基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，所述infoNCE损失函数通过以下函数表示：

5.根据权利要求1所述的基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，所述根据所述样本图像的文本检测结果在所述样本图像上进行文本分割，确定分割出的文本区域对应的二级标签，并基于所述二级标签构建第二损失函数，包括：

6.根据权利要求1至5中任一项所述的基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，所述样本图像通过以下步骤获得：

7.根据权利要求1至

8.一种基于对比学习在像素点块层面提取特征的文本检测系统，其特征在于，所述系统包括：模型训练模组和模型使用模组，所述模型训练模组包括获取单元、第一损失函数构建单元、第二损失函数构建单元和训练执行单元；

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于对比学习在像素点块层面提取特征的文本检测方法。

...

【技术特征摘要】

1.一种基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，包括：

3.根据权利要求2所述的基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，每次向外扩张和向内收缩的偏移量通过以下公式确定：

4.根据权利要求2所述的基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，所述infonce损失函数通过以下函数表示：

5.根据权利要求1所述的基于对比学习在像素点块层面提取特征的文本检测方法，其特征在于，所述根据所述样本图像的文本检测结果在所述样本图像上进行文本分割，确定分割出的文本区域对应的二级标签，并基于...

【专利技术属性】
技术研发人员：王琦，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人