文本图像的处理方法及装置制造方法及图纸

技术编号:37992362 阅读:11 留言:0更新日期:2023-06-30 10:06
本公开提供了一种文本图像的处理方法及装置,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。实现方案为:提取文本图像的文本图像特征;基于经训练的多个语义查询特征对文本图像特征进行语义预测,以得到与多个语义查询特征分别对应的多个语义结果特征,其中,多个语义结果特征中的至少一部分表征至少一个文字片段的语义信息;以及基于多个语义结果特征对文本图像特征进行解码,以得到文本图像处理结果,其中,文本图像处理结果至少包括至少一个文字片段在文本图像中的位置信息。信息。信息。

【技术实现步骤摘要】
文本图像的处理方法及装置


[0001]本公开涉及人工智能
,具体为计算机视觉、图像处理、深度学习等
,可应用于智慧金融、智慧政务等场景。本公开具体涉及一种文本图像的处理方法及装置、文本图像处理网络的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]OCR在教育、金融、医疗、交通和保险等各行各业都取到了广泛的关注和应用,文字检测作为OCR系统的前置环节决定了整个系统的效果上限,一个好的文字检测装置对于完整的OCR软件系统起着至关重要的作用。
[0003]文字检测面临各种各样的文档、卡证、票据是极具挑战性的,尤其是面临着复杂背景下的遮挡、扭曲、以及排列分布复杂的场景。现有业界主流的检测方法,包括基于回归的方式以及基于文本和非文本两类分割的方式,这两种方式均存在一定的缺陷。
[0004]随着AI应用进入深水区,用户对于挑战性较高的场景逐渐暴露出比较高的效果需求如财务、医疗场景下的各种票据,由于关键信息是套打在带有底板样式的票据模板上,往往会带来显示文本重叠的问题,另外,某些开放场景如街景店面POI经常有横竖阅读跳变的文字场景。这些都对文字检测带来了识别的挑战。
[0005]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0006]本公开提供了一种文本图像的处理方法及装置、文本图像处理网络的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0007]根据本公开的一方面,提供了一种文本图像的处理方法,方法包括:提取文本图像的文本图像特征,其中,文本图像包括至少一个文字片段;基于经训练的多个语义查询特征对文本图像特征进行语义预测,以得到与多个语义查询特征分别对应的多个语义结果特征,其中,多个语义结果特征中的至少一部分表征至少一个文字片段的语义信息;以及基于多个语义结果特征对文本图像特征进行解码,以得到文本图像处理结果,其中,文本图像处理结果至少包括至少一个文字片段在文本图像中的位置信息。
[0008]根据本公开的另一方面,提供了一种文本图像处理网络的训练方法,其中,文本图像处理网络包括特征提取器、语义预测网络和位置解码器,训练方法包括:获取样本文本图像和样本文本图像所包括的至少一个文字片段各自的真实语义标签;将样本文本图像输入特征提取器,以得到样本图像特征;利用语义预测网络,基于多个语义查询特征对样本图像特征进行语义预测,以得到与多个语义查询特征分别对应的多个语义结果特征,其中,多个语义结果特征中的至少一部分表征至少一个文字片段的语义信息;基于样本文本图像所包
括的至少一个文字片段各自的真实语义标签和多个语义结果特征,确定损失值;以及基于损失值调整语义预测网络的参数和多个语义查询特征,以得到训练后的语义预测网络和经训练的多个语义查询特征。
[0009]根据本公开的另一方面,提供了一种文本图像的处理装置,装置包括:第一提取单元,配置成提取文本图像的文本图像特征,其中,文本图像包括至少一个文字片段;第一预测单元,配置成基于经训练的多个语义查询特征对文本图像特征进行语义预测,以得到与多个语义查询特征分别对应的多个语义结果特征,其中,多个语义结果特征中的至少一部分表征至少一个文字片段的语义信息;以及解码单元,配置成基于多个语义结果特征对文本图像特征进行解码,以得到文本图像处理结果,其中,文本图像处理结果至少包括至少一个文字片段在文本图像中的位置信息。
[0010]根据本公开的另一方面,提供了一种文本图像处理网络的训练装置,其中,文本图像处理网络包括特征提取器、语义预测网络和位置解码器,训练装置包括:获取单元,配置成获取样本文本图像和样本文本图像所包括的至少一个文字片段各自的真实语义标签;第二提取单元,配置成将样本文本图像输入特征提取器,以得到样本图像特征;第二预测单元,配置成利用语义预测网络,基于多个语义查询特征对样本图像特征进行语义预测,以得到与多个语义查询特征分别对应的多个语义结果特征,其中,多个语义结果特征中的至少一部分表征至少一个文字片段的语义信息;损失值确定单元,配置成基于样本文本图像所包括的至少一个文字片段各自的真实语义标签和多个语义结果特征,确定损失值;以及调整单元,配置成基于损失值调整语义预测网络的参数和多个语义查询特征,以得到训练后的语义预测网络和经训练的多个语义查询特征。
[0011]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的方法。
[0012]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述的方法。
[0013]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述的方法。
[0014]根据本公开的一个或多个实施例,可以预测文本图像中的一些完整文字片段的语义信息;最后将预测的语义信息作为位置解码器的初始查询特征进行位置解码,得到每个文字行或文字列对应的准确位置信息。本公开实施例的方法不再以包围盒位置作为查询特征,仅使用语义结果特征进行解码,因此可以实现对不同实例的文本进行有效分离以及避免横排和竖排文字混淆的问题。
[0015]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0016]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0017]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0018]图2示出了根据本公开的实施例的神经网络的结构示意图;
[0019]图3示出了根据本公开的实施例的文本图像的处理方法的流程图;
[0020]图4示出了根据本公开的实施例的语义预测的方法的流程图;
[0021]图5示出了根据本公开的实施例的利用位置解码器进行解码的方法的流程图;
[0022]图6示出了根据本公开的实施例的文本图像处理网络的训练方法的流程图;
[0023]图7示出了根据本公开的实施例的文本图像的处理装置的结构示意图;
[0024]图8示出了根据本公开的实施例的文本图像处理网络的训练装置的结构示意图;
[0025]图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本图像处理方法,所述方法包括:提取所述文本图像的文本图像特征,其中,所述文本图像包括至少一个文字片段;基于经训练的多个语义查询特征对所述文本图像特征进行语义预测,以得到与所述多个语义查询特征分别对应的多个语义结果特征,其中,所述多个语义结果特征中的至少一部分表征所述至少一个文字片段的语义信息;以及基于所述多个语义结果特征对所述文本图像特征进行解码,以得到文本图像处理结果,其中,所述文本图像处理结果至少包括所述至少一个文字片段在所述文本图像中的位置信息。2.根据权利要求1所述的方法,其中,基于经训练的多个语义查询特征对所述文本图像特征进行语义预测,以得到与所述多个语义查询特征分别对应的多个语义结果特征包括:根据所述文本图像特征确定第一键特征和第一值特征;以及将所述多个语义查询特征、所述第一键特征和所述第一值特征输入语义预测网络,得到所述语义预测网络输出的多个语义结果特征。3.根据权利要求1所述的方法,其中,基于经训练的多个语义查询特征对所述文本图像特征进行语义预测还包括:利用语义预测网络对所述文本图像特征进行语义预测,其中,所述语义预测网络具有基于Region

based的网络框架。4.根据权利要求1所述的方法,其中,基于所述多个语义结果特征对所述文本图像特征进行解码,以得到文本图像处理结果包括:根据所述文本图像特征确定第二键特征和第二值特征;以及将所述多个语义结果特征、所述第二键特征和所述第二值特征输入位置解码器,得到所述位置解码器输出的文本图像处理结果。5.根据权利要求1

4中任一项所述的方法,其中,所述将所述多个语义结果特征、所述第二键特征和所述第二值特征输入位置解码器,得到所述位置解码器输出的文本图像处理结果包括:根据所述多个语义结果特征、所述第二键特征和所述第二值特征确定多个位置解码特征;以及对所述多个位置解码特征进行回归预测,以得到所述文本图像处理结果。6.根据权利要求1

4中任一项所述的方法,其中,所述文本图像处理结果包括:所述至少一个文字片段中的每个文字片段的包围盒信息,其中,所述包围盒表示该文字片段在所述文本图像中的边界。7.一种文本图像处理网络的训练方法,其中,所述文本图像处理网络包括特征提取器、语义预测网络和位置解码器,所述训练方法包括:获取样本文本图像和所述样本文本图像所包括的至少一个文字片段各自的真实语义标签;将所述样本文本图像输入所述特征提取器,以得到样本图像特征;利用所述语义预测网络,基于多个语义查询特征对所述样本图像特征进行语义预测,以得到与所述多个语义查询特征分别对应的多个语义结果特征,其中,所述多个语义结果特征中的至少一部分表征所述至少一个文字片段的语义信息;
基于所述样本文本图像所包括的至少一个文字片段各自的真实语义标签和所述多个语义结果特征,确定损失值;以及基于所述损失值调整所述语义预测网络的参数和所述多个语义查询特征,以得到训练后的语义预测网络和经训练的多个语义查询特征。8.根据权利要求7所述的训练方法,其中,所述真实语义标签包括向量标签,所述获取样本文本图像和所述样本文本图像所包括的至少一个文字片段各自的真实语义标签包括:利用语义编码器,将所述至少一个文字片段中的每个文字片段的语义进行编码,以生成对应的向量标签。9.根据权利要求8所述的训练方法,其中,所述至少一个文字片段包括中文片段和英文片段,所述语义编码器包括用于对所述中文片段进行编码的第一模型以及用于对所述英文片段进行编码的第二模型。10.一种文本图像的处理装置,其中,所述装置包括:第一提取单元,配置成提取所述文本图像的文本图像特征,其中,所述文本图像包括至少一个文字片段;第一预测单元,配置成基于经训练的多个语义查询特征对所述文本图像特征进行语义预测,以得到与所述多个语义查询特征...

【专利技术属性】
技术研发人员:章成全吕鹏原
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1