【技术实现步骤摘要】
文本检测模型的训练方法、装置、计算机设备和存储介质
本申请涉及图像识别
,特别是涉及一种文本检测模型的训练方法、装置、计算机设备和存储介质。
技术介绍
随着人工智能技术的发展,越来越多的繁琐工作被机器取代。比如一些文本图像的识别录入,如果仅仅依靠人工来完成,不仅耗时费力,而且会因为疲劳疏忽等原因导致问题的产生。因此,可通过机器自动完成对文本图像中文本的定位和检测。然而,自然场景及文档类的文本检测定位存在文字尺度变化大、方向多、长宽不定、文本密集等问题,又由于文本检测定位的环境比较复杂,使得自然场景中多方向文本及弯曲倾斜常导致机器误识别,因此,传统的矩形回归已经不能满足实际的文本检测定位需求。
技术实现思路
基于此,有必要针对上述技术问题,提供一种文本检测模型的训练方法、装置、计算机设备和存储介质。为了实现上述目的,一方面,本申请实施例提供了一种文本检测模型的训练方法,所述方法包括:获取带有文本标注框的样本图像,其中,文本标注框为任意角度的多边形框,样本图像中包括文本标注框的第 ...
【技术保护点】
1.一种文本检测模型的训练方法,其特征在于,所述方法包括:/n获取带有文本标注框的样本图像,所述文本标注框为任意角度的多边形框,所述样本图像中包括所述文本标注框的第一坐标矩阵,所述第一坐标矩阵中包括所述文本标注框各顶点的坐标;/n对所述样本图像进行特征提取,以得到对应的样本特征图;/n将所述样本特征图输入至初始文本检测模型,得到所述样本图像的文本预测框以及对应的第二坐标矩阵,所述第二坐标矩阵中包括所述文本预测框各顶点的坐标;/n根据预设的损失函数以及所述文本标注框的第一坐标矩阵确定所述文本预测框对应的第二坐标矩阵的损失值;/n根据所述损失值训练所述初始文本检测模型,得到文本检测模型。/n
【技术特征摘要】
1.一种文本检测模型的训练方法,其特征在于,所述方法包括:
获取带有文本标注框的样本图像,所述文本标注框为任意角度的多边形框,所述样本图像中包括所述文本标注框的第一坐标矩阵,所述第一坐标矩阵中包括所述文本标注框各顶点的坐标;
对所述样本图像进行特征提取,以得到对应的样本特征图;
将所述样本特征图输入至初始文本检测模型,得到所述样本图像的文本预测框以及对应的第二坐标矩阵,所述第二坐标矩阵中包括所述文本预测框各顶点的坐标;
根据预设的损失函数以及所述文本标注框的第一坐标矩阵确定所述文本预测框对应的第二坐标矩阵的损失值;
根据所述损失值训练所述初始文本检测模型,得到文本检测模型。
2.根据权利要求1所述的文本检测模型的训练方法,其特征在于,所述预设的损失函数至少包括线约束损失函数,所述线约束损失函数L=f(θ),其中,θ表示所述文本预测框的相邻两个顶点之间的连线与对应的所述文本标注框的相邻两个顶点之间的连线的夹角。
3.根据权利要求2所述的文本检测模型的训练方法,其特征在于,所述根据所述损失值训练所述初始文本检测模型,包括:
根据所述线约束损失函数计算得到的线约束损失调整所述文本预测框对应的第二坐标矩阵中相应顶点的坐标;
并采用反向传播法迭代训练所述初始文本检测模型;
在迭代训练时采用调整后的顶点坐标以及所述线约束损失函数计算所述线约束损失,重复上述步骤调整相应顶点的坐标,直至达到迭代次数时停止调整。
4.根据权利要求3所述的文本检测模型的训练方法,其特征在于,在训练所述初始文本检测模型的过程中,当达到迭代次数时停止训练,并更新所述初始文本检测模型的参数,将更新参数后的所述初始文本检测模型确定为文本检测模型。
5.一种文本检测方法,其特征在于,所述方法包括:
将待检测的文本图像输入至具有多层输出的特征提取网络中,得到多层特征图,所述多层特征图之间的尺度不同;
对所述多层特征图进行融合处理,得到融合特征图;
将所述融合特征图输入至由权利要求1至4任一项所述的方法训练得到的文本检测模型中,得到待检测的文本图像中文本区域的目标文本框。
6.根据权利要求5所...
【专利技术属性】
技术研发人员:周康明,谈咏东,
申请(专利权)人:上海眼控科技股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。