【技术实现步骤摘要】
一种训练模型以及字符检测的方法及装置
本说明书涉及计算机
,尤其涉及一种训练模型以及字符检测的方法及装置。
技术介绍
光学字符识别(OpticalCharacterRecognition,OCR)技术是一种可将图像中的文字转换成文本格式的技术。随着OCR技术的发展,基于OCR的文字识别技术得到了广泛的应用。文字识别技术通过对图像进行文本检测,以从图像中确定出字符串(如:一个单词的所有字母为一个字符串)的包围框,以对图像中的字符串进行定位。在进行文本检测得到各字符串的包围框之后,文字识别技术可基于得到的各字符串的包围框对包围框中的文字进行识别,以得到图像中的文字。目前,通过文本检测得到的各字符串的包围框的准确度,对最终的文字识别结果的准确度影响较大,但在现有的文本检测技术中,文本检测得到的各字符串的包围框的准确度并不理想。
技术实现思路
本说明书提供一种训练模型以及字符检测的方法及装置,以部分的解决现有技术存在的上述问题。本说明书采用下述技术方案:本说明书提供了一种训练字符检测 ...
【技术保护点】
1.一种训练字符检测模型的方法,其特征在于,包括:/n从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线作为该训练样本的第二标签;/n将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图;/n将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入所述待训练的字符检测模型的线特征检测网络,得到各预测中心线;/n根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失 ...
【技术特征摘要】 【专利技术属性】
1.一种训练字符检测模型的方法,其特征在于,包括:
从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,以及确定该训练样本对应的图像中各字符串的中心线作为该训练样本的第二标签;
将该训练样本输入待训练的字符检测模型的特征提取网络,确定该训练样本对应的若干特征图;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及输入所述待训练的字符检测模型的线特征检测网络,得到各预测中心线;
根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,以及根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失;
根据所述第一损失以及所述第二损失,确定所述字符检测模型的总损失,以所述总损失最小为训练目标,调整所述待训练的字符检测模型的参数,所述字符检测模型用于确定待检测图像中的各字符的包围框以及各中心线,以根据各包围框对各中心线向周围进行膨胀,得到各膨胀包围框作为所述待检测图像的字符检测结果。
2.如权利要求1所述的方法,其特征在于,该训练样本的第一标签还包括该训练样本对应的图像中各包围框内字符的类型;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,具体包括:
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,以及各预测包围框内的图像在各预测类型维度上预测结果的置信度。
3.如权利要求2所述的方法,其特征在于,根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,具体包括:
确定得到的各预测包围框的几何位置特征以及各预测包围框内的图像在各预测类型维度上预测结果的置信度,并确定该训练样本的第一标签中各包围框的几何位置特征以及各包围框内的字符所属类型的特征值;
针对每个预测包围框,根据该预测包围框的几何位置特征与该训练样本的第一标签中与该预测包围框对应的包围框的几何位置特征间的差异,确定该预测包围框的回归损失;
根据该训练样本的第一标签中与该预测包围框对应的包围框所属类型的特征值,以及该预测包围框内的图像在各预测类型维度上预测结果的置信度,确定该预测包围框的分类损失;
根据各预测包围框的回归损失以及各预测包围框的分类损失确定第一损失。
4.如权利要求2所述的方法,其特征在于,所述几何特征检测网络包括区域检测网络和区域矫正网络;
将该训练样本对应的若干特征图作为输入,输入所述待训练的字符检测模型的几何特征检测网络,得到各预测包围框,具体包括:
将该训练样本对应的若干特征图作为输入,输入所述区域检测网络,确定输出的各字符分别对应的各初始预测包围框;
针对每个字符,根据该字符对应的各初始预测包围框,对各初始预测包围框包围的区域进行特征采样,确定该字符对应的若干特征矩阵;
根据得到的该字符对应的若干特征矩阵,通过所述区域矫正网络,确定各初始预测包围框的位置偏移特征,根据各初始预测包围框的位置偏移特征,对各初始预测包围框进行矫正,确定该训练样本中该字符的预测包围框。
5.如权利要求4所述的方法,其特征在于,根据得到的各预测包围框与该训练样本的第一标签的差异确定第一损失,具体包括:
针对所述区域检测网络输出的每个初始预测包围框,根据该初始预测包围框的几何位置特征,确定所述第一标签中与该初始预测包围框对应的包围框;
根据该初始预测包围框及其对应的所述第一标签中的包围框,确定该初始预测包围框的第一回归损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该预测包围框及其对应的所述第一标签中的包围框,确定该预测包围框的第二回归损失;
根据各第一回归损失以及各第二回归损失,确定第一损失。
6.如权利要求5所述的方法,其特征在于,该训练样本的第一标签还包括该训练样本对应的图像中各包围框内字符的类型,所述区域检测网络和所述区域矫正网络,还分别输出初始预测包围框内的图像在各预测类型维度上预测结果的置信度,以及预测包围框内图像在各预测类型维度上预测结果的置信度;
所述方法还包括:
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该初始预测包围框及其对应的所述第一标签中的包围框,确定该初始预测包围框的第一回归损失;
根据该初始预测包围框内的图像在各预测类型维度上预测结果的置信度及其对应的所述第一标签中的包围框对应类型的特征值,确定该预测包围框的第一分类损失;
根据各第一回归损失以及各第一分类损失确定初始损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框的几何位置特征,确定所述第一标签中与该预测包围框对应的包围框;
根据该预测包围框及其对应的所述第一标签中的包围框,确定该预测包围框的第二回归损失;
针对所述区域矫正网络输出的每个预测包围框,根据该预测包围框内的图像在各预测类型维度上预测结果的置信度及其对应的所述第一标签中的包围框对应的类型,确定该预测包围框的第二分类损失;
根据各第二回归损失以及各第二分类损失确定矫正损失;
根据所述初始损失与所述矫正损失确定第一损失。
7.如权利要求1所述的方法,其特征在于,根据得到的各预测中心线与该训练样本的第二标签的差异确定第二损失,具体包括:
根据得到的各预测中心线,确定包含各预测中心线的图像,作为该训练样本的中心线图;
确定该训练样本的所述中心线图中各像素点的类型特征值;
针对每个像素点,根据该像素点的类型特征值与该训练样本的第二标签中,该像素点对应的像素点的类型特征值,确定该像素点对应的损失;
根据各像素点对应的损失,确定该训练样本的第二损失。
8.如权利要求2所述的方法,其特征在于,从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,确定该训练样本对应的图像中各字符的包围框为该训练样本的第一标签,具体包括:
从图像数据集中获取若干图像作为训练样本,并针对每个训练样本,将该训练样本对应的图像输入训练得到的标注模型,确定所述标注模型输出的各包围框、各包围框内的图像在各预设类型维度上预测结果的置信度以及该训练样本对应的图像中各字符串的中心线;
根据各包围框内的图像在各预设类型维度上预测结果的置信度,确定各包围框对应的类型,以根据各包围框对应的类型,从各包围框中确定各初始标注包围框;
根据各初始标注包围框,以及各字符串的中心线,从各初始标注包围框中确定各标注包围框;
技术研发人员:白翔,张文庆,邱阳,宋祺,姜仟艺,刘曦,张睿,廖明辉,魏晓林,
申请(专利权)人:北京三快在线科技有限公司,华中科技大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。