一种文字定位模型的训练方法及文字定位方法技术

技术编号：31234033 阅读：9 留言：0更新日期：2021-12-08 10:13

本公开提供了一种文字定位方法及文字定位模型的训练方法，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别OCR等场景。具体实现方案为：获取样本图像；将样本图像输入至待训练的文字定位模型中，输出预测文本框；获取样本先验锚点框；根据样本先验锚点框、标注文本框和预测文本框，对文字定位模型的模型参数进行调整，并使用下一个样本图像对调整后的文字定位模型继续训练，直至模型训练结束生成目标文字定位模型。由此，本公开能够通过结合先验锚点框进行文字定位模型的训练，不再需要在模型训练过程中从零开始进行回归预测，降低了模型训练过程中的耗时及难度，提高了模型训练结果的可靠性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文字定位模型的训练方法及文字定位方法

[0001]本公开涉及计算机
，并且更具体地涉及人工智能领域，尤其涉及计算机视觉和深度学习

技术介绍

[0002]近年来，随着人工智能技术的飞速发展，文字定位也得到了广泛应用。特别地，针对票据等含有文字的图像的文字定位，更是受到了越来越多的重视。其中，票据是一种重要的结构化信息的文本载体，被广泛用于各种商业场景。尽管电子发票日益发展，传统纸质发票仍然被大量使用。而各式各样的票据，版式复杂、项目繁多，这样一来，文字定位结果的准确性往往难以保证。与此同时，针对海量票据的文字定位过程，通常需要耗费大量人力成本，这样一来，极可能导致文字定位过程效率极低，从而影响票据审核、报账等业务的效率。
[0003]相关技术中，在对文字进行定位时，借助于光学字符识别(Optical Character Recognition，简称OCR)技术的快速发展，自动化审核方式正逐步替代人工审核方式。但是基于票据具有版式复杂多样、存在大量文字重叠，以及文字行长短不一等特点，当前基于分割或者检测的文字定位方法在OCR等应用场景下表现无法达到预期。
[0004]因此，如何提高文字定位过程中的效率及可靠性，已成为了重要的研究方向之一。

技术实现思路

[0005]本公开提供了一种文字定位模型的训练方法及文字定位方法。
[0006]根据本公开的一方面，提供了一种文字定位模型的训练方法，包括：
[0007]获取样本图像，其中，所述样本图像中包括样本待定位文...

【技术保护点】

【技术特征摘要】
1.一种文字定位模型的训练方法，包括：获取样本图像，其中，所述样本图像中包括样本待定位文字和所述样本待定位文字的标注文本框；将所述样本图像输入至待训练的文字定位模型中对所述样本待定位文字进行定位，输出所述样本图像的预测文本框；获取所述样本图像对应的样本先验锚点框；根据所述样本先验锚点框、所述标注文本框和所述预测文本框，对所述文字定位模型的模型参数进行调整，并使用下一个样本图像对调整后的所述文字定位模型继续训练，直至模型训练结束生成目标文字定位模型。2.根据权利要求1所述的文字定位模型的训练方法，其中，所述根据所述样本先验锚点框、所述标注文本框和所述预测文本框，对所述文字定位模型的模型参数进行调整，包括：根据所述样本先验锚点框和所述标注文本框，获取第一损失函数；根据所述标注文本框和所述预测文本框，获取第二损失函数；根据所述第一损失函数和所述第二损失函数，获取所述文字定位模型的损失函数；基于所述损失函数对所述文字定位模型的模型参数进行调整。3.根据权利要求2所述的文字定位模型的训练方法，其中，所述根据所述样本先验锚点框和所述标注文本框，获取第一损失函数，包括：根据所述标注文本框的属性信息和所述样本先验锚点框的属性信息，获取所述第一损失函数。4.根据权利要求3所述的文字定位模型的训练方法，其中，所述根据所述标注文本框的属性信息和所述样本先验锚点框的属性信息，获取所述第一损失函数，包括：获取所述标注文本框的X轴角点与中心点之间的第一距离，以及所述标注文本框的Y轴角点与所述中心点之间的第二距离；获取所述样本先验锚点框的长度以及宽度；分别获取所述第一距离与所述宽度之间的第一比值，以及所述第二距离与所述长度之间的第二比值；根据所述第一比值和所述第二比值，获取所述第一损失函数。5.根据权利要求4所述的文字定位模型的训练方法，其中，所述标注文本框的所述中心点与所述样本先验锚点框的中心点重合。6.根据权利要求1所述的文字定位模型的训练方法，其中，所述获取所述样本图像对应的样本先验锚点框，包括：对所述样本图像进行特征提取，以获取所述样本图像对应的特征图；根据所述特征图，获取匹配的所述样本先验锚点框。7.根据权利要求6所述的文字定位模型的训练方法，其中，所述根据所述特征图，获取匹配的所述样本先验锚点框，包括：根据所述特征图，获取至少一个所述样本待定位文字；获取每个所述样本待定位文字的尺寸；针对每个所述样本待定位文字，获取与所述样本待定位文字的尺寸对应的所述样本先验锚点框。
8.一种文字定位方法，包括：获取图像，其中，所述图像中包括待定位文字；将所述图像输入至目标文字定位模型中对所述待定位文字进行定位，输出所述图像的目标文本框，其中，所述目标文字定位模型为基于权利要求1
‑
7任一项所述的训练方法训练出的模型。9.一种文字定位模型的训练装置，包括：第一获取模块，用于获取样本图像，其中，所述样本图像中包括样本待定位文字和所述样本待定位文字的标注文本框；输出模块，用于将所述样本图像输入至待训练的文字定位模型中对所述样...

【专利技术属性】
技术研发人员：黄聚，李煜林，王鹏，谢群义，钦夏孟，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人