文本检测模型训练方法及装置、文本检测方法及装置制造方法及图纸

技术编号:28499389 阅读:26 留言:0更新日期:2021-05-19 22:39
本申请提供文本检测模型训练方法及装置、文本检测方法及装置,其中所述文本检测模型训练方法包括:将目标训练图像输入至文本检测模型,其中,目标训练图像标注有对应的标注框;通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图;通过所述特征池化层将所述多个不同尺度的初始特征图进行池化,获得多个不同尺度的增强特征图;通过所述特征融合层将所述多个不同尺度的增强特征图进行融合,获得多个预测框;在所述多个预测框中确定目标预测框,基于所述目标预测框和所述目标训练图像对应的标注框确定损失值,根据所述损失值对所述文本检测模型进行训练,直至达到训练停止条件。到训练停止条件。到训练停止条件。

【技术实现步骤摘要】
文本检测模型训练方法及装置、文本检测方法及装置


[0001]本申请涉及计算机
,特别涉及文本检测模型训练方法及装置、文本检测方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]随着计算机技术的快速发展,图像处理领域也得到了快速发展,其中,文本检测在图像处理领域中也是非常重要的一个分支。
[0003]现有的文本检测大多是基于人工标注的文本图片作为模型的训练数据,训练图片需要耗费大量的人力和物力对其进行标注,或花费高昂的价格购买标注数据,成本很高,而且现有的文本检测模型中,大多没有考虑图像通道之间的联系,在检测复杂背景(如颜色复杂、纹理复杂等)的文本区域时,经常会出现遗漏的现象,最终确定的文本检测位置经常不准确,也会有误判的情况发生。
[0004]因此,如何解决上述问题就成为技术人员亟待解决的问题。

技术实现思路

[0005]有鉴于此,本申请实施例提供了文本检测模型训练方法及装置、文本检测方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0006]根据本申请实施例的第一方面,提供了一种文本检测模型训练方法,包括:
[0007]将目标训练图像输入至文本检测模型,其中,所述目标训练图像标注有对应的标注框,所述文本检测模型包括特征提取层、特征池化层和特征融合层;
[0008]通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图;
[0009]通过所述特征池化层将所述多个不同尺度的初始特征图进行池化,获得多个不同尺度的增强特征图;
[0010]通过所述特征融合层将所述多个不同尺度的增强特征图进行融合,获得多个预测框;
[0011]在所述多个预测框中确定目标预测框,基于所述目标预测框和所述目标训练图像对应的标注框确定损失值,根据所述损失值对所述文本检测模型进行训练,直至达到训练停止条件。
[0012]根据本申请实施例的第二方面,提供了一种文本检测方法,包括:
[0013]获取待检测图像,其中,所述待检测图像中包括待检测文本;
[0014]将所述待检测图像输入至预先训练好的文本检测模型,其中,所述文本检测模型是经过上述文本检测模型训练方法训练获得的;
[0015]所述文本检测模型响应于所述待检测图像作为输入而生成所述待检测文本对应的预测文本框。
[0016]根据本申请实施例的第三方面,提供了一种文本检测模型训练装置,包括:
[0017]获取模块,被配置为将目标训练图像输入至文本检测模型,其中,所述目标训练图
像标注有对应的标注框,所述文本检测模型包括特征提取层、特征池化层和特征融合层;
[0018]提取模块,被配置为通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图;
[0019]池化模块,被配置为通过所述特征池化层将所述多个不同尺度的初始特征图进行池化,获得多个不同尺度的增强特征图;
[0020]融合模块,被配置为通过所述特征融合层将所述多个不同尺度的增强特征图进行融合,获得多个预测框;
[0021]训练模块,被配置为在所述多个预测框中确定目标预测框,基于所述目标预测框和所述目标训练图像对应的标注框确定损失值,根据所述损失值对所述文本检测模型进行训练,直至达到训练停止条件。
[0022]根据本申请实施例的第四方面,提供了一种文本检测装置,包括:
[0023]获取模块,被配置为获取待检测图像,其中,所述待检测图像中包括待检测文本;
[0024]输入模块,被配置为将所述待检测图像输入至预先训练好的文本检测模型,其中,所述文本检测模型是经过上述文本检测模型训练方法训练获得的;
[0025]生成模块,被配置为所述文本检测模型响应于所述待检测图像作为输入而生成所述待检测文本对应的预测文本框。
[0026]根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述文本检测模型训练方法或文本检测方法的步骤。
[0027]根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述文本检测模型训练方法或文本检测方法的步骤。
[0028]根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述文本检测模型训练方法或文本检测方法的步骤。
[0029]本申请实施例提供的文本检测模型训练方法,包括:将目标训练图像输入至文本检测模型,其中,所述目标训练图像标注有对应的标注框,所述文本检测模型包括特征提取层、特征池化层和特征融合层;通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图;通过所述特征池化层将所述多个不同尺度的初始特征图进行池化,获得多个不同尺度的增强特征图;通过所述特征融合层将所述多个不同尺度的增强特征图进行融合,获得多个预测框;在所述多个预测框中确定目标预测框,基于所述目标预测框和所述目标训练图像对应的标注框确定损失值,根据所述损失值对所述文本检测模型进行训练,直至达到训练停止条件。本方法提供的文本检测模型通过特征提取层,可以有效增强特征之间的联系,有效的增强在复杂背景区域下文本的精度,同时增加了特征池化层的网络结构,可以有效增大目标区域的感受野,减少小目标物体漏检的现象,从整体上增强了文本检测模型的识别准确度,提高了识别效率。
[0030]其次,采用了新型的数据扩增形式,解决了因为人工标记数据不足和目标遮挡带来的识别不准确的问题,同时还增强了文本检测模型的泛化性。
附图说明
[0031]图1是本申请实施例提供的计算设备的结构框图;
[0032]图2是本申请实施例提供的文本检测模型训练方法的流程图;
[0033]图3是本申请另一实施例提供的文本检测模型训练方法的示意图;
[0034]图4是本申请实施例提供的文本检测方法的流程示意图;
[0035]图5是本申请实施例提供的文本检测模型训练装置的结构示意图;
[0036]图6是本申请实施例提供的文本检测装置的结构示意图。
具体实施方式
[0037]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0038]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0039]应当理解,尽管在本申请一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测模型训练方法,其特征在于,包括:将目标训练图像输入至文本检测模型,其中,所述目标训练图像标注有对应的标注框,所述文本检测模型包括特征提取层、特征池化层和特征融合层;通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图;通过所述特征池化层将所述多个不同尺度的初始特征图进行池化,获得多个不同尺度的增强特征图;通过所述特征融合层将所述多个不同尺度的增强特征图进行融合,获得多个预测框;在所述多个预测框中确定目标预测框,基于所述目标预测框和所述目标训练图像对应的标注框确定损失值,根据所述损失值对所述文本检测模型进行训练,直至达到训练停止条件。2.如权利要求1所述的文本检测模型训练方法,其特征在于,在将目标训练图像输入至文本检测模型之前,还包括:获取预设的训练集合中的目标训练图像。3.如权利要求2所述的文本检测模型训练方法,其特征在于,获取预设的训练集合中的目标训练图像,包括:获取初始训练集合,其中,所述初始训练集合中包括多个训练图像;对所述多个训练图像进行数据扩增处理,生成数据扩增后的训练集合。4.如权利要求3所述的文本检测模型训练方法,其特征在于,对所述多个训练图像进行数据扩增处理,包括:对所述多个训练图像进行随机剪裁、随机平移、更改对比度、更改亮度、更改透明度、随机遮挡、随机填充中的任意一种数据扩增处理。5.如权利要求1所述的文本检测模型训练方法,其特征在于,所述融合注意力机制的特征提取层包括多个通道,所述多个通道之间融合注意力机制;通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图,包括:通过所述多个通道和所述多个通道之间融合的注意力机制提取所述目标训练图像对应的多个不同尺度的初始特征图。6.如权利要求1所述的文本检测模型训练方法,其特征在于,所述特征池化层包括空洞空间卷积池化金字塔;通过所述特征池化层将所述多个不同尺度的初始特征图进行池化,包括:通过所述空洞空间卷积池化金字塔将所述多个不同尺度的初始特征图进行池化。7.如权利要求1所述的文本检测模型训练方法,其特征在于,所述特征融合层包括特征图金字塔网络;通过所述特征融合层将所述多个不同尺度的增强特征图进行融合,获得多个预测框,包括:通过所述特征图金字塔网络融合所述多个不同尺度的增强特征图,获得多个预测框和每个预测框对应的分值。8.如权利要求7所述的文本检测模型训练方法,其特征在于,在所述多个预测框中确定目标预测框,包括:
确定分值最高的预测框为目标预测框。9.如权利要求1所述的文本检测模型训练方法,其特征在于,基于所述目标预测框和所述目标训练图像对应的标注框确定损失值,包括:基于所述目标预测框的位置信息...

【专利技术属性】
技术研发人员:张鹏远李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1