一种文字定位模型的训练方法及文字定位方法技术

技术编号:31234033 阅读:9 留言:0更新日期:2021-12-08 10:13
本公开提供了一种文字定位方法及文字定位模型的训练方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取样本图像;将样本图像输入至待训练的文字定位模型中,输出预测文本框;获取样本先验锚点框;根据样本先验锚点框、标注文本框和预测文本框,对文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。由此,本公开能够通过结合先验锚点框进行文字定位模型的训练,不再需要在模型训练过程中从零开始进行回归预测,降低了模型训练过程中的耗时及难度,提高了模型训练结果的可靠性。性。性。

【技术实现步骤摘要】
一种文字定位模型的训练方法及文字定位方法


[0001]本公开涉及计算机
,并且更具体地涉及人工智能领域,尤其涉及计算机视觉和深度学习


技术介绍

[0002]近年来,随着人工智能技术的飞速发展,文字定位也得到了广泛应用。特别地,针对票据等含有文字的图像的文字定位,更是受到了越来越多的重视。其中,票据是一种重要的结构化信息的文本载体,被广泛用于各种商业场景。尽管电子发票日益发展,传统纸质发票仍然被大量使用。而各式各样的票据,版式复杂、项目繁多,这样一来,文字定位结果的准确性往往难以保证。与此同时,针对海量票据的文字定位过程,通常需要耗费大量人力成本,这样一来,极可能导致文字定位过程效率极低,从而影响票据审核、报账等业务的效率。
[0003]相关技术中,在对文字进行定位时,借助于光学字符识别(Optical Character Recognition,简称OCR)技术的快速发展,自动化审核方式正逐步替代人工审核方式。但是基于票据具有版式复杂多样、存在大量文字重叠,以及文字行长短不一等特点,当前基于分割或者检测的文字定位方法在OCR等应用场景下表现无法达到预期。
[0004]因此,如何提高文字定位过程中的效率及可靠性,已成为了重要的研究方向之一。

技术实现思路

[0005]本公开提供了一种文字定位模型的训练方法及文字定位方法。
[0006]根据本公开的一方面,提供了一种文字定位模型的训练方法,包括:
[0007]获取样本图像,其中,所述样本图像中包括样本待定位文字和所述样本待定位文字的标注文本框;
[0008]将所述样本图像输入至待训练的文字定位模型中对所述样本待定位文字进行定位,输出所述样本图像的预测文本框;
[0009]获取所述样本图像对应的样本先验锚点框;
[0010]根据所述样本先验锚点框、所述标注文本框和所述预测文本框,对所述文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的所述文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。
[0011]根据本公开的另一方面,提供了一种文字定位方法,包括:
[0012]获取图像,其中,所述图像中包括待定位文字;
[0013]将所述图像输入至目标文字定位模型中对所述待定位文字进行定位,输出所述图像的目标文本框,其中,所述目标文字定位模型为基于本公开第一方面实施例所述的训练方法训练出的模型。
[0014]根据本公开的另一方面,提供了一种文字定位模型的训练装置,包括:
[0015]第一获取模块,用于获取样本图像,其中,所述样本图像中包括样本待定位文字和所述样本待定位文字的标注文本框;
[0016]输出模块,用于将所述样本图像输入至待训练的文字定位模型中对所述样本待定位文字进行定位,输出所述样本图像的预测文本框;
[0017]第二获取模块,用于获取所述样本图像对应的样本先验锚点框;
[0018]生成模块,用于根据所述样本先验锚点框、所述标注文本框和所述预测文本框,对所述文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的所述文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。
[0019]根据本公开的另一方面,提供了一种文字定位装置,包括:
[0020]获取模块,用于获取图像,其中,所述图像中包括待定位文字;
[0021]输出模块,用于将所述图像输入至目标文字定位模型中对所述待定位文字进行定位,输出所述图像的目标文本框,其中,所述目标文字定位模型为基于本公开第一方面实施例所述的训练方法训练出的模型。
[0022]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面所述的文字定位模型的训练方法或者第二方面所述的文字定位方法。
[0023]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开第一方面所述的文字定位模型的训练方法或者第二方面所述的文字定位方法。
[0024]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现根据本公开第一方面所述的文字定位模型的训练方法或者第二方面所述的文字定位方法的步骤。
[0025]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0026]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0027]图1是根据本公开第一实施例的示意图;
[0028]图2是根据本公开一种样本图像的示意图;
[0029]图3是根据本公开一种预测文本框的示意图;
[0030]图4是根据本公开第二实施例的示意图;
[0031]图5是根据本公开第三实施例的示意图;
[0032]图6是根据本公开第四实施例的示意图;
[0033]图7是根据本公开一种标注文本框与样本先验锚点框的示意图;
[0034]图8是根据本公开第五实施例的示意图;
[0035]图9是用来实现本公开实施例的文字定位模型的训练方法的文字定位模型的训练装置的框图;
[0036]图10是用来实现本公开实施例的文字定位方法的文字定位装置的框图;
[0037]图11是用来实现本公开实施例的文字定位模型的训练方法或文字定位方法的电子设备的框图。
具体实施方式
[0038]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0039]以下对本公开的方案涉及的
进行简要说明:
[0040]计算机技术(Computer Technology),计算机技术的内容非常广泛,可粗分为计算机系统技术、计算机器件技术、计算机部件技术和计算机组装技术等几个方面。计算机技术包括:运算方法的基本原理与运算器设计、指令系统、中央处理器(CPU)设计、流水线原理及其在CPU设计中的应用、存储体系、总线与输入输出。
[0041]AI(Artificial Intelligence,人工智能),是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术,也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字定位模型的训练方法,包括:获取样本图像,其中,所述样本图像中包括样本待定位文字和所述样本待定位文字的标注文本框;将所述样本图像输入至待训练的文字定位模型中对所述样本待定位文字进行定位,输出所述样本图像的预测文本框;获取所述样本图像对应的样本先验锚点框;根据所述样本先验锚点框、所述标注文本框和所述预测文本框,对所述文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的所述文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。2.根据权利要求1所述的文字定位模型的训练方法,其中,所述根据所述样本先验锚点框、所述标注文本框和所述预测文本框,对所述文字定位模型的模型参数进行调整,包括:根据所述样本先验锚点框和所述标注文本框,获取第一损失函数;根据所述标注文本框和所述预测文本框,获取第二损失函数;根据所述第一损失函数和所述第二损失函数,获取所述文字定位模型的损失函数;基于所述损失函数对所述文字定位模型的模型参数进行调整。3.根据权利要求2所述的文字定位模型的训练方法,其中,所述根据所述样本先验锚点框和所述标注文本框,获取第一损失函数,包括:根据所述标注文本框的属性信息和所述样本先验锚点框的属性信息,获取所述第一损失函数。4.根据权利要求3所述的文字定位模型的训练方法,其中,所述根据所述标注文本框的属性信息和所述样本先验锚点框的属性信息,获取所述第一损失函数,包括:获取所述标注文本框的X轴角点与中心点之间的第一距离,以及所述标注文本框的Y轴角点与所述中心点之间的第二距离;获取所述样本先验锚点框的长度以及宽度;分别获取所述第一距离与所述宽度之间的第一比值,以及所述第二距离与所述长度之间的第二比值;根据所述第一比值和所述第二比值,获取所述第一损失函数。5.根据权利要求4所述的文字定位模型的训练方法,其中,所述标注文本框的所述中心点与所述样本先验锚点框的中心点重合。6.根据权利要求1所述的文字定位模型的训练方法,其中,所述获取所述样本图像对应的样本先验锚点框,包括:对所述样本图像进行特征提取,以获取所述样本图像对应的特征图;根据所述特征图,获取匹配的所述样本先验锚点框。7.根据权利要求6所述的文字定位模型的训练方法,其中,所述根据所述特征图,获取匹配的所述样本先验锚点框,包括:根据所述特征图,获取至少一个所述样本待定位文字;获取每个所述样本待定位文字的尺寸;针对每个所述样本待定位文字,获取与所述样本待定位文字的尺寸对应的所述样本先验锚点框。
8.一种文字定位方法,包括:获取图像,其中,所述图像中包括待定位文字;将所述图像输入至目标文字定位模型中对所述待定位文字进行定位,输出所述图像的目标文本框,其中,所述目标文字定位模型为基于权利要求1

7任一项所述的训练方法训练出的模型。9.一种文字定位模型的训练装置,包括:第一获取模块,用于获取样本图像,其中,所述样本图像中包括样本待定位文字和所述样本待定位文字的标注文本框;输出模块,用于将所述样本图像输入至待训练的文字定位模型中对所述样...

【专利技术属性】
技术研发人员:黄聚李煜林王鹏谢群义钦夏孟姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1