【技术实现步骤摘要】
基于深度学习实例分割的票据图像文本检测方法
本专利技术涉及图像处理
,特别涉及一种基于深度学习实例分割的票据图像文本检测方法。
技术介绍
近几年,AI技术的发展突飞猛进,其应用领域也越来越广,如机器人、语音识别、图像识别、计算机视觉、自动驾驶等领域。在图像识别方面,基于深度学习的OCR识别以其识别精度高、识别速度快等优点被业界广泛采用。众所周知,OCR技术一般分为文本检测和文本识别两个技术分支,虽然近期也有推出基于神经网络的端到端OCR识别,但其在特定场景下的效果还不理想。因此,主流的OCR识别技术还是分为文本检测和文本识别两个方向。而在票据识别方面,受实际业务需求的影响,可能还要对识别结果进行字段匹配,比如将票据金额、票据号码等从识别结果中提取出来,并给出该字段在原图中对应的位置信息。一般的方法是在文字检测及识别流程完成之后,根据检测到的文本图像位置及文本识别内容进行后处理匹配,这种方法需要编写复杂的后处理逻辑,并且若票面结构复杂、各字段内容详尽的话,匹配的精度难以保证。如果能在文本检测阶段直接对票据中的各个 ...
【技术保护点】
1.基于深度学习实例分割的票据图像文本检测方法,其特征在于,包括步骤:/nA.收集训练数据进行人工标注数据及自动生成虚拟票据训练数据;/nB.网络模型结构及网络参数与训练参数设置;/nC.模型训练;分为两阶段实现,第一阶段使用自动生成的虚拟票据训练数据对模型进行训练并保存训练模型权重,第二阶段采用在收集的真实训练数据上进行模型微调以提高模型在真实票据上的泛化性能;/nD.模型部署及预测,用训练好的模型对各个类别的票据图片进行文本实例分割,得到各个字段的位置信息及类别信息。/n
【技术特征摘要】 【专利技术属性】
1.基于深度学习实例分割的票据图像文本检测方法,其特征在于,包括步骤:
A.收集训练数据进行人工标注数据及自动生成虚拟票据训练数据;
B.网络模型结构及网络参数与训练参数设置;
C.模型训练;分为两阶段实现,第一阶段使用自动生成的虚拟票据训练数据对模型进行训练并保存训练模型权重,第二阶段采用在收集的真实训练数据上进行模型微调以提高模型在真实票据上的泛化性能;
D.模型部署及预测,用训练好的模型对各个类别的票据图片进行文本实例分割,得到各个字段的位置信息及类别信息。
2.根据权利要求1所述的基于深度学习实例分割的票据图像文本检测方法,其特征在于,所述步骤A包括:
A1.标注数据准备;
A2.虚拟票据生成;
A3.训练数据划分及数据格式转换。
3.根据权利要求2所述的基于深度学习实例分割的票据图像文本检测方法,其特征在于,所述步骤A1包括:收集不同类别的待标注票据图片,定义各个字段的类别名称,其中,若某个字段在票据图片中有多行,则将该字段的每行分别标注为不同的类别名称加以区别。
4.根据权利要求3所述的基于深度学习实例分割的票据图像文本检测方法,其特征在于,所述步骤A1中使用的标注工具为VIA。
5.根据权利要求3所述的基于深度学习实例分割的票据图像文本检测方法,其特征在于,所述步骤A2包括:
A2.1.整理各个类别票据数据的语料信息;
A2.2.针对各个类别票据图片确定一张模板图片,将该模板图片中各字段的内容抹除,并记录各个字段在模板图片中的初始像素位置;
A2.3.编码实现从对应类别的票据语料库中随机抽取各个字段的文本信息画到模板图片对应位置上;
A2.4.对生成的票据图像做高斯模糊、加入随机噪声,同时将生成图像中各个字段的像素位置及类别信息写入标签文件。
6.根据权利要求3所述的基于深度学习实例分割的票据图像文本检测方法,其特征在于,所述步骤A3中具体是将人工标注数据和计算机生成的虚拟票据数据的标签分别转换成coco数据格式。
技术研发人员:池明辉,唐军,刘楚雄,肖欣庭,杨懿龄,赵冬,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。