基于变音符号特征增强的越南语场景文本检测方法及装置制造方法及图纸

技术编号：40769381 阅读：4 留言：0更新日期：2024-03-25 20:18

本发明专利技术公开一种基于变音符号特征增强的越南语场景文本检测方法及装置，该方法步骤包括：步骤S1：获取包含越南语文本的原始图片，进行图像特征提取；步骤S2：提取原始图片的高频边缘细节信息，并提取出边缘细节特征，与特征图进行融合得到融合特征；步骤S3：将融合特征输入至特征金字塔网络中，生成区域建议，计算出候选框的特征图，使用IoU‑v标准评估候选框的质量；步骤S4：将候选框的特征图分别输出至检测分支及掩码分支，由检测分支检测得到检测框及类别，由掩码分支将检测到的对象进行实例分割，生成带有变音符号信息的增强特征图，添加至原始特征图。本发明专利技术能够提取及增强变音符号特征，提高越南语场景文本的检测精度及鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及场景文本检测，尤其涉及一种基于变音符号特征增强的越南语场景文本检测方法及装置。

技术介绍

1、目前场景文本检测方案主要是针对于英语和汉语等语言的检测，针对越南语等声调语言的研究相对较少。越南语是一种使用拉丁字母书写的声调语言，它有29个字母，其中包括从拉丁字母借用的22个字母(a，e，i，o，u，y，b，c，d，g，h，k，l，m，n，p，q，r，s，t，v，x)和7个独特的越南字母越南语有六个不同的声调，其中第一个声调是不带标记的，其他五个声调通过放置在元音字母上方或下方的变音符号来表示。变音符号可以添加到12个不同的元音字母上，因而含有变音符号的字母共有64种可能的组合，变音符在越南语文本中具有显著的重要性。越南语使用了大量的变音符号，越南语的该类独特结构也给其在自然场景中的检测带来了重大困难和挑战。

2、传统文本检测算法中，例如psenet(progressive scale expansion network，渐进扩展网络)是利用fcn对每个文本实例进行像素级分类，并预测多个不同尺度文本的中心区域(文本核)，然后通过逐级扩展算法获得文本实例分割结果。由于psenet的后处理比较复杂，模型的前向预测效率相对较低，并不适用于具有变音符号的越南语文本检测中。即便通过在psenet中引入像素聚合网络，可以在预测文本区域和文本内核的同时，还能够预测像素相似性向量，进而利用这些向量的预测结果指导将文本像素聚合到正确的文本内核，生成不同文本实例的检测结果，可以在一定程度上提高检测效率，但是由于变音符号可能会被

3、越南语中变音符号通常明显要小于所附的基本字符，并且位于字符的上方或下方，这可能会导致这些符号在传统文本检测过程中被视为噪声而被忽略或与相邻字符混淆，而变音符号的错误识别或漏检即可能导致单词意义的丢失，由于背景噪声的干扰，提取变音符号特征也极为困难。现有技术中通常是采用扩展感受野的方式，以适应不同尺度的文本目标，但该类方式可能会引入过多的背景噪声，适用于越南语文本检测时导致更难以区分变音符号特征，传统使用区域候选网络(rpn)方式过滤的候选框也无法有效地包括变音符号特征，致使变音符号错误识别或漏检进而影响文本检测的精度。

技术实现思路

1、本专利技术要解决的技术问题就在于：针对现有技术存在的技术问题，本专利技术提供一种实现方法简单、成本低、检测精度高以及鲁棒性强的基于变音符号特征增强的越南语场景文本检测方法及装置，能够有效提取并增强变音符号特征，提高越南语场景文本的检测精度以及鲁棒性。

2、为解决上述技术问题，本专利技术提出的技术方案为：

3、一种基于变音符号特征增强的越南语场景文本检测方法，步骤包括：

4、步骤s1：获取包含越南语文本的原始图片，输入至resnet网络进行图像特征提取；

5、步骤s2：提取所述原始图片的高频边缘细节信息，并从所述高频边缘细节信息中提取出边缘细节特征，将提取出的所述边缘细节特征与resnet网络输出的特征图进行融合得到融合特征；

6、步骤s3：将所述融合特征输入至特征金字塔网络fpn中以融合不同尺度的特征图，并使用区域建议网络rpn生成区域建议，计算出候选框的特征图，所述生成区域建议时使用iou-v标准评估候选框的质量，所述iou-v标准为在iou标准的基础上设置惩罚项以惩罚没有包含变音符号的区域建议；

7、步骤s4：将所述候选框的特征图分别输出至检测分支以及用于获取目标分割信息的掩码分支，由所述检测分支根据所述候选框的特征图进行检测得到检测框以及检测类别输出，由所述掩码分支将检测到的对象进行实例分割，生成带有变音符号信息的增强特征图，将所述增强特征图添加至原始特征图中形成融合特征图并输入到下一次的掩码任务中。

8、进一步的，步骤s1包括：

9、步骤s101.将所述原始图片依次进行三轮离散小波变换，提取出所述高频边缘细节信息；

10、步骤s102.将第二轮、第三轮离散小波变换所提取出的高频边缘细节信息分别经过边缘细节特征提取器进行提纯处理，对应提取出第一边缘细节特征、第二边缘细节特征；

11、步骤s103.将所述第一边缘细节特征、第二边缘细节特征分别对应的与resnet网络中第1、2阶段输出的特征进行融合，得到所述融合特征。

12、进一步的，步骤s101中，将所述原始图像依次进行三轮离散小波变换时，每个层次提取的高频边缘细节信息包括水平高频特征lh、垂直高频特征hl以及对角线高频特征hh，进行所述三轮离散小波变换的表达式为：

13、(ll1，lh1，hl1，hh1)＝dwt(xrgb)

14、(ll2，lh2，hl2，hh2)＝dwt(ll1)

15、(ll3，lh3，hl3，hh3)＝dwt(ll2)

16、其中，dwt表示离散小波变换，xrgb代表rgb图像，下标代表执行离散小波变换的轮数；

17、步骤s102中，使用两个3×3卷积层和一个1×1卷积层作为边缘细节特征提取器提取出边缘细节特征，即：

18、

19、步骤s103中，将所述第一边缘细节特征、第二边缘细节特征分别对应的与resnet网络中第1、2阶段输出的特征进行concat连接以融合得到所述融合特征。

20、进一步的，所述iou-v标准中，当真实框被检测框完全覆盖时，由iou标准对检测框进行惩罚，当真实框被检测框部分覆盖时在iou标准的基础上减小指定的惩罚量以对未覆盖区域进行惩罚，使得检测框的数值降低，所述iou-v标准的表达式为：

21、

22、其中，b表示检测框，g表示真实框，c表示预设系数。

23、进一步的，步骤s4中将检测到的对象进行实例分割，生成带有变音符号信息的增强特征图包括：

24、步骤s401.将候选框的特征图垂直分割为上部xupper、中部xmid和下部xlower三部分特征；

25、步骤s402.将上部xupper和下部xlower的特征分别输入到两个网络结构中，由每个所述网络结构依次经过两个3×3卷积层、一个2×2转置卷积层和一个1×1卷积层后，生成对应上下两部分变音符号信息的概率图，并计算概率图的损失以用于比较预测掩码和真实掩码；

26、步骤s403.将从两个所述网络结构中第二个卷积层中提取的上部x2upper上部分、下部x2lower下部分的特征与中部xmid的特征合并，生成带有变音符号信息的增强特征xdffm。

27、进一步的，构建用于检测越南语场景文本的检测模型，所述检测模块包括依次设置的基于resnet的骨干网络、用本文档来自技高网...

【技术保护点】

1.一种基于变音符号特征增强的越南语场景文本检测方法，其特征在于，步骤包括：

2.根据权利要求1所述的基于变音符号特征增强的越南语场景文本检测方法，其特征在于，步骤Sl包括：

3.根据权利要求2所述的基于变音符号特征增强的越南语场景文本检测方法，其特征在于，步骤S101中，将所述原始图像依次进行三轮离散小波变换时，每个层次提取的高频边缘细节信息包括水平高频特征LH、垂直高频特征HL以及对角线高频特征HH，进行所述三轮离散小波变换的表达式为：

4.根据权利要求1所述的基于变音符号特征增强的越南语场景文本检测方法，其特征在于，所述IoU-v标准中，当真实框被检测框完全覆盖时，由IoU标准对检测框进行惩罚，当真实框被检测框部分覆盖时在IoU标准的基础上减小指定的惩罚量以对未覆盖区域进行惩罚，使得检测框的数值降低，所述IoU-v标准的表达式为：

5.根据权利要求1所述的基于变音符号特征增强的越南语场景文本检测方法，其特征在于，步骤S4中将检测到的对象进行实例分割，生成带有变音符号信息的增强特征图包括：

6.根据权利要求1～5中任

7.一种基于变音符号特征增强的越南语场景文本检测装置，其特征在于，步骤包括：

8.根据权利要求7所述的基于变音符号特征增强的越南语场景文本检测装置，其特征在于，所述特征提取模块包括：

9.根据权利要求7或8所述的基于变音符号特征增强的越南语场景文本检测装置，其特征在于，所述掩码分支包括用于生成带有变音符号信息的增强特征图的变音特征融合模块DFFM，以及用于形成融合特征图输入到下一次的掩码任务的融合模块，所述变音特征融合模块DFFM包括：

10.一种基于变音符号特征增强的越南语场景文本检测装置，包括处理器以及存储器，所述存储器用于存储计算机程序，其特征在于，所述处理器用于执行所述计算机程序以执行如权利要求1～6中任意一项所述方法。

...

【技术特征摘要】

1.一种基于变音符号特征增强的越南语场景文本检测方法，其特征在于，步骤包括：

2.根据权利要求1所述的基于变音符号特征增强的越南语场景文本检测方法，其特征在于，步骤sl包括：

3.根据权利要求2所述的基于变音符号特征增强的越南语场景文本检测方法，其特征在于，步骤s101中，将所述原始图像依次进行三轮离散小波变换时，每个层次提取的高频边缘细节信息包括水平高频特征lh、垂直高频特征hl以及对角线高频特征hh，进行所述三轮离散小波变换的表达式为：

4.根据权利要求1所述的基于变音符号特征增强的越南语场景文本检测方法，其特征在于，所述iou-v标准中，当真实框被检测框完全覆盖时，由iou标准对检测框进行惩罚，当真实框被检测框部分覆盖时在iou标准的基础上减小指定的惩罚量以对未覆盖区域进行惩罚，使得检测框的数值降低，所述iou-v标准的表达式为：

5.根据权利要求1所述的基于变音符号特征增强的越南语场景文本检测方法，其特征在于，步骤s4中将检测到的对象进行实例分割，生成带有变音符号信息的增强特征图包括：

6.根据权利要求1～5中任意一项所述的基于变音符号特征增强的越南语场景文本检...

【专利技术属性】
技术研发人员：史绍亮，
申请(专利权)人：广西科技开发院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人