一种弯曲文本检测模型训练方法技术

技术编号：39782138 阅读：10 留言：0更新日期：2023-12-22 02:25

本申请公开了一种弯曲文本检测模型训练方法

全部详细技术资料下载

【技术实现步骤摘要】
一种弯曲文本检测模型训练方法、装置、设备及存储介质

[0001]本专利技术涉及文本检测领域，特别涉及一种弯曲文本检测模型训练方法
、
装置
、
设备及存储介质
。

技术介绍

[0002]在当今数字化时代，计算机视觉技术的迅猛发展已经催生了许多创新应用，其中文本检测作为一项关键技术，广泛应用于自动驾驶
、
图像标注
、
文档分析等领域
。
现代文本检测技术倚赖深度神经网络的高性能，这些网络通过在大规模标记数据集上的训练，实现了在标准场景下的出色表现
。
[0003]尽管文本检测技术在处理标准文本场景中取得了显著进展，但在处理自然图像中的变化多样的文本时仍然存在挑战
。
自然图像中的文本可能具有不同的大小
、
形状
、
颜色和字体，这种多样性使得准确检测文本区域变得更加困难
。
特别是弯曲文本实例，由于其不规则的形状和方向，对现有文本检测算法提出了独特的挑战
。
然而，与标准文本相比，弯曲文本实例在现有文本检测数据集中的样本数量相对较少，这导致现有算法在弯曲文本检测方面表现不尽如人意
。
因此，如何训练文本检测算法使该算法能够更好地适应复杂的弯曲文本情景是本领域有待解决的问题
。

技术实现思路

[0004]有鉴于此，本专利技术的目的在于提供一种弯曲文本检测模型训练方法
、
装置
>、
设备及存储介质，通过创建包含弯曲文本的合成图像，引入合成图像和弯曲文本的多边形边界区域注释作为训练数据进行文本检测算法训练，能够提高在自然图像中检测弯曲文本的准确性和鲁棒性
。
其具体方案如下：
[0005]第一方面，本申请提供了一种弯曲文本检测模型训练方法，包括：
[0006]获取预设图像库的初始图像和预设单词数据库的弯曲文本，根据所述弯曲文本生成弯曲文本实例，并基于预设文本嵌入规则将所述弯曲文本实例嵌入所述初始图像的目标位置，以生成插入所述弯曲文本实例的合成图像；
[0007]生成所述合成图像中的所述弯曲文本实例的多边形轮廓，根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，并将所述多边形边界区域信息保存至
JSON
文件中；
[0008]基于预设深度学习模型构建初始文本检测器，并基于所述合成图像和对应的所述
JSON
文件中的所述多边形边界区域信息构建数据集，以根据所述数据集利用
TorchVision
对所述初始文本检测器进行模型调整和训练，生成目标文本检测器
。
[0009]可选的，所述生成所述合成图像中的所述弯曲文本实例的多边形轮廓，包括：
[0010]根据预设图像生成脚本在所述合成图像中确定待标注的所述弯曲文本实例的定位，并根据所述定位确定所述多边形轮廓的边界起始点；
[0011]基于所述边界起始点依次绘制所述多边形轮廓的若干边界点，以根据所述边界起
始点和所述边界点生成所述弯曲文本实例的所述多边形轮廓
。
[0012]可选的，所述根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，包括：
[0013]根据英文字母按照顺时针顺序标注所述边界起始点和若干所述边界点；
[0014]在若干所述边界点标注完成后，再次标注所述边界起始点以闭合所述多边形轮廓，并根据标注后的所述多边形轮廓得到对应的所述多边形边界区域信息
。
[0015]可选的，所述根据标注后的所述多边形轮廓得到对应的所述多边形边界区域信息，包括：
[0016]根据标注后的所述多边形轮廓记录所述边界起始点和若干所述边界点的坐标，并根据所述坐标确定所述多边形边界区域信息
。
[0017]可选的，所述将所述弯曲文本实例嵌入所述初始图像的目标位置，包括：
[0018]通过使用正弦函数模拟所述弯曲文本中的每个单词中字母的位移将所述弯曲文本实例嵌入所述初始图像的所述目标位置
。
[0019]可选的，所述生成目标文本检测器之后，还包括：
[0020]利用
Mask R
‑
CNN
方法生成所述数据集中的所述合成图像的分割掩码，并利用所述目标文本检测器对所述分割掩码进行文本检测
。
[0021]可选的，所述生成所述数据集中的所述合成图像的分割掩码，包括：
[0022]利用所述目标文本检测器基于所述合成图像对应的所述多边形边界区域信息生成彩色蒙版；
[0023]将所述彩色蒙版转换为灰度图像，并根据所述灰度图像生成对应的分割掩码
。
[0024]第二方面，本申请提供了一种弯曲文本检测模型训练装置，包括：
[0025]图像生成模块，用于获取预设图像库的初始图像和预设单词数据库的弯曲文本，根据所述弯曲文本生成弯曲文本实例，并基于预设文本嵌入规则将所述弯曲文本实例嵌入所述初始图像的目标位置，以生成插入所述弯曲文本实例的合成图像；
[0026]信息确定模块，用于生成所述合成图像中的所述弯曲文本实例的多边形轮廓，根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，并将所述多边形边界区域信息保存至
JSON
文件中；
[0027]模型训练模块，用于基于预设深度学习模型构建初始文本检测器，并基于所述合成图像和对应的所述
JSON
文件中的所述多边形边界区域信息构建数据集，以根据所述数据集利用
TorchVision
对所述初始文本检测器进行模型调整和训练，生成目标文本检测器
。
[0028]第三方面，本申请提供了一种电子设备，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述的弯曲文本检测模型训练方法
。
[0029]第四方面，本申请提供了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的弯曲文本检测模型训练方法
。
[0030]本申请中，首先获取预设图像库的初始图像和预设单词数据库的弯曲文本，然后根据所述弯曲文本生成弯曲文本实例，并基于预设文本嵌入规则将所述弯曲文本实例嵌入所述初始图像的目标位置，从而生成插入所述弯曲文本实例的合成图像
。
之后生成所述合成图像中的所述弯曲文本实例的多边形轮廓，根据预设标注规则对所述多边形轮廓进行标
注得到对应的多边形边界区域信息，并将所述多边形边界区域信息保存至
JSON
文件中；通过基于预设深度学习模型构建初始文本检测器，并基于所述合成图像和对应的所述
JSON
文件中的所述多边形边界区域信息构建数据集，可以根据所述数据集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种弯曲文本检测模型训练方法，其特征在于，包括：获取预设图像库的初始图像和预设单词数据库的弯曲文本，根据所述弯曲文本生成弯曲文本实例，并基于预设文本嵌入规则将所述弯曲文本实例嵌入所述初始图像的目标位置，以生成插入所述弯曲文本实例的合成图像；生成所述合成图像中的所述弯曲文本实例的多边形轮廓，根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，并将所述多边形边界区域信息保存至
JSON
文件中；基于预设深度学习模型构建初始文本检测器，并基于所述合成图像和对应的所述
JSON
文件中的所述多边形边界区域信息构建数据集，以根据所述数据集利用
TorchVision
对所述初始文本检测器进行模型调整和训练，生成目标文本检测器
。2.
根据权利要求1所述的弯曲文本检测模型训练方法，其特征在于，所述生成所述合成图像中的所述弯曲文本实例的多边形轮廓，包括：根据预设图像生成脚本在所述合成图像中确定待标注的所述弯曲文本实例的定位，并根据所述定位确定所述多边形轮廓的边界起始点；基于所述边界起始点依次绘制所述多边形轮廓的若干边界点，以根据所述边界起始点和所述边界点生成所述弯曲文本实例的所述多边形轮廓
。3.
根据权利要求2所述的弯曲文本检测模型训练方法，其特征在于，所述根据预设标注规则对所述多边形轮廓进行标注得到对应的多边形边界区域信息，包括：根据英文字母按照顺时针顺序标注所述边界起始点和若干所述边界点；在若干所述边界点标注完成后，再次标注所述边界起始点以闭合所述多边形轮廓，并根据标注后的所述多边形轮廓得到对应的所述多边形边界区域信息
。4.
根据权利要求3所述的弯曲文本检测模型训练方法，其特征在于，所述根据标注后的所述多边形轮廓得到对应的所述多边形边界区域信息，包括：根据标注后的所述多边形轮廓记录所述边界起始点和若干所述边界点的坐标，并根据所述坐标确定所述多边形边界区域信息
。5.
根据权利要求1所述的弯曲文本检测模型训练方法，其特征在于，所述将所述弯曲文本实例嵌入所述初始图像的目标位置，包括：通过使用正弦函数模拟所...

【专利技术属性】
技术研发人员：段强，宁方刚，宋晨，姜凯，魏子重，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人