文本检测模型训练方法及装置、文本检测方法及装置制造方法及图纸

技术编号：28499389 阅读：26 留言：0更新日期：2021-05-19 22:39

本申请提供文本检测模型训练方法及装置、文本检测方法及装置，其中所述文本检测模型训练方法包括：将目标训练图像输入至文本检测模型，其中，目标训练图像标注有对应的标注框；通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图；通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框；在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。到训练停止条件。到训练停止条件。

全部详细技术资料下载

【技术实现步骤摘要】
文本检测模型训练方法及装置、文本检测方法及装置

[0001]本申请涉及计算机
，特别涉及文本检测模型训练方法及装置、文本检测方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]随着计算机技术的快速发展，图像处理领域也得到了快速发展，其中，文本检测在图像处理领域中也是非常重要的一个分支。
[0003]现有的文本检测大多是基于人工标注的文本图片作为模型的训练数据，训练图片需要耗费大量的人力和物力对其进行标注，或花费高昂的价格购买标注数据，成本很高，而且现有的文本检测模型中，大多没有考虑图像通道之间的联系，在检测复杂背景(如颜色复杂、纹理复杂等)的文本区域时，经常会出现遗漏的现象，最终确定的文本检测位置经常不准确，也会有误判的情况发生。
[0004]因此，如何解决上述问题就成为技术人员亟待解决的问题。

技术实现思路

[0005]有鉴于此，本申请实施例提供了文本检测模型训练方法及装置、文本检测方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。
[0006]根据本申请实施例的第一方面，提供了一种文本检测模型训练方法，包括：
[0007]将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层；
[0008]通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；
[0009]通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获...

【技术保护点】

【技术特征摘要】
1.一种文本检测模型训练方法，其特征在于，包括：将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层；通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图；通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框；在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。2.如权利要求1所述的文本检测模型训练方法，其特征在于，在将目标训练图像输入至文本检测模型之前，还包括：获取预设的训练集合中的目标训练图像。3.如权利要求2所述的文本检测模型训练方法，其特征在于，获取预设的训练集合中的目标训练图像，包括：获取初始训练集合，其中，所述初始训练集合中包括多个训练图像；对所述多个训练图像进行数据扩增处理，生成数据扩增后的训练集合。4.如权利要求3所述的文本检测模型训练方法，其特征在于，对所述多个训练图像进行数据扩增处理，包括：对所述多个训练图像进行随机剪裁、随机平移、更改对比度、更改亮度、更改透明度、随机遮挡、随机填充中的任意一种数据扩增处理。5.如权利要求1所述的文本检测模型训练方法，其特征在于，所述融合注意力机制的特征提取层包括多个通道，所述多个通道之间融合注意力机制；通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图，包括：通过所述多个通道和所述多个通道之间融合的注意力机制提取所述目标训练图像对应的多个不同尺度的初始特征图。6.如权利要求1所述的文本检测模型训练方法，其特征在于，所述特征池化层包括空洞空间卷积池化金字塔；通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，包括：通过所述空洞空间卷积池化金字塔将所述多个不同尺度的初始特征图进行池化。7.如权利要求1所述的文本检测模型训练方法，其特征在于，所述特征融合层包括特征图金字塔网络；通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框，包括：通过所述特征图金字塔网络融合所述多个不同尺度的增强特征图，获得多个预测框和每个预测框对应的分值。8.如权利要求7所述的文本检测模型训练方法，其特征在于，在所述多个预测框中确定目标预测框，包括：
确定分值最高的预测框为目标预测框。9.如权利要求1所述的文本检测模型训练方法，其特征在于，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，包括：基于所述目标预测框的位置信息...

【专利技术属性】
技术研发人员：张鹏远，李长亮，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人