文本图像生成、训练、文本图像处理方法以及电子设备技术

技术编号:34987461 阅读:12 留言:0更新日期:2022-09-21 14:32
本发明专利技术提供了一种文本图像生成、训练、文本图像处理方法以及电子设备,涉及人工智能技术领域。具体实现方案为:根据样本文本图像集的样本文本输出结果集和样本标签集,将样本文本图像集划分为至少一个样本文本图像子集;根据待裁剪样本文本图像集的样本文本输出结果集,确定待裁剪样本文本图像集的目标裁剪位置集;基于目标裁剪位置集对待裁剪样本文本图像集进行裁剪,得到至少一个裁剪样本文本图像子集;根据至少一个裁剪样本文本图像子集和至少一个样本文本图像子集,得到目标样本文本图像集。能够有效保证目标裁剪位置的准确性,有效避免字符信息被破坏,并且提高了目标样本文本图像集中样本文本图像的图像背景复杂度和图像多样性。像多样性。像多样性。

【技术实现步骤摘要】
文本图像生成、训练、文本图像处理方法以及电子设备


[0001]本专利技术涉及人工智能
,尤其涉及计算机视觉和深度学习
,可应用于光学字符识别场景。具体地,涉及一种文本图像生成、训练、文本图像处理方法以及电子设备。

技术介绍

[0002]随着计算机技术的发展,人工智能技术也得以发展。人工智能技术可以包括计算机视觉技术、语音识别技术、自然语言处理技术、机器学习、深度学习、大数据处理技术和知识图谱技术等。
[0003]人工智能技术在各种领域得到了广泛应用。例如,可以利用人工智能技术生成用于训练深度学习模型的文本图像。

技术实现思路

[0004]本专利技术提供了一种文本图像生成、训练、文本图像处理方法以及电子设备。
[0005]根据本专利技术的一方面,提供了一种文本图像生成方法,包括:根据样本文本图像集的样本文本输出结果集和样本标签集,将上述样本文本图像集划分为至少一个样本文本图像子集,其中,上述至少一个样本文本图像子集包括第一样本文本图像子集,上述第一样本文本图像子集包括样本文本输出结果正确的样本文本图像;根据待裁剪样本文本图像集的样本文本输出结果集,确定上述待裁剪样本文本图像集的目标裁剪位置集,其中,上述待裁剪样本文本图像集是根据上述第一样本文本图像子集确定的;基于上述目标裁剪位置集对上述待裁剪样本文本图像集进行裁剪,得到至少一个裁剪样本文本图像子集;以及,根据上述至少一个裁剪样本文本图像子集和上述至少一个样本文本图像子集,得到目标样本文本图像集。
[0006]根据本专利技术的另一方面,提供了一种深度学习模型的训练方法,包括:获取目标样本文本图像集;以及,利用上述目标样本文本图像集训练上述深度学习模型,得到文本图像处理模型,其中,上述目标样本文本图像集是利用根据本专利技术上述的方法得到的。
[0007]根据本专利技术的另一方面,提供了一种文本图像处理方法,包括:获取待处理文本图像;以及,将上述待处理文本图像输入文本图像处理模型,得到文本图像处理结果,其中,上述文本图像处理模型是利用根据本专利技术上述的方法训练得到的。
[0008]根据本专利技术的另一方面,提供了一种文本图像生成装置,包括:划分模块,用于根据样本文本图像集的样本文本输出结果集和样本标签集,将上述样本文本图像集划分为至少一个样本文本图像子集,其中,上述至少一个样本文本图像子集包括第一样本文本图像子集,上述第一样本文本图像子集包括样本文本输出结果正确的样本文本图像;确定模块,用于根据待裁剪样本文本图像集的样本文本输出结果集,确定上述待裁剪样本文本图像集的目标裁剪位置集,其中,上述待裁剪样本文本图像集是根据上述第一样本文本图像子集确定的;第一获得模块,用于基于上述目标裁剪位置集对上述待裁剪样本文本图像集进行
裁剪,得到至少一个裁剪样本文本图像子集;以及,第二获得模块,用于根据上述至少一个裁剪样本文本图像子集和上述至少一个样本文本图像子集,得到目标样本文本图像集。
[0009]根据本专利技术的另一方面,提供了一种深度学习模型的训练装置,包括:第一获取模块,用于获取目标样本文本图像集;以及第三获得模块,用于利用上述目标样本文本图像集训练上述深度学习模型,得到文本图像处理模型,其中,上述目标样本文本图像集是利用根据本专利技术上述的装置得到的。
[0010]根据本专利技术的另一方面,提供了一种文本图像处理装置,包括:第二获取模块,用于获取待处理文本图像;以及第四获得模块,用于将上述待处理文本图像输入文本图像处理模型,得到文本图像处理结果,其中,上述文本图像处理模型是利用根据本专利技术上述的装置训练得到的。
[0011]根据本专利技术的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本专利技术所述的方法。
[0012]根据本专利技术的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本专利技术所述的方法。
[0013]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本专利技术的限定。其中:图1示意性示出了根据本专利技术实施例的可以文本图像生成方法、深度学习模型的训练方法和文本图像处理方法及装置的示例性系统架构;图2示意性示出了根据本专利技术实施例的文本图像生成方法的流程图;图3A示意性示出了根据本专利技术实施例的文本图像生成方法的原理示意图;图3B示意性示出了根据本专利技术实施例的第三样本文本图像子集的生成过程的示例示意图;图3C示意性示出了根据本专利技术另一实施例的第三样本文本图像子集的生成过程的示例示意图;图3D示意性示出了根据本专利技术另一实施例的第三样本文本图像子集的生成过程的示例示意图;图3E示意性示出了根据本专利技术本另一实施例的第三样本文本图像子集的生成过程的示例示意图;图4示意性示出了根据本专利技术实施例的深度学习模型的训练方法的流程图;图5示意性示出了根据本专利技术实施例的文本图像处理方法的流程图;图6示意性示出了根据本专利技术实施例的文本图像生成装置的框图;图7示意性示出了根据本专利技术实施例的深度学习模型的训练装置的框图;图8示意性示出了根据本专利技术实施例的文本图像处理装置的框图;以及图9示意性示出了根据本专利技术实施例的适于实现文本图像生成方法、深度学习模
型的训练方法和文本图像处理方法的电子设备的框图。
具体实施方式
[0015]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0016]图1示意性示出了根据本专利技术实施例的可以文本图像生成方法、深度学习模型的训练方法和文本图像处理方法及装置的示例性系统架构。
[0017]需要注意的是,图1所示仅为可以应用本专利技术实施例的系统架构的示例,以帮助本领域技术人员理解本专利技术的
技术实现思路
,但并不意味着本专利技术实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用文本图像生成方法、深度学习模型的训练方法和文本图像生成方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本专利技术实施例提供的文本图像生成方法、深度学习模型的训练方法和文本图像处理方法及装置。
[0018]如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型。例如,有线和无线通信链路等中的至少之一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本图像生成方法,包括:根据样本文本图像集的样本文本输出结果集和样本标签集,将所述样本文本图像集划分为至少一个样本文本图像子集,其中,所述至少一个样本文本图像子集包括第一样本文本图像子集,所述第一样本文本图像子集包括样本文本输出结果正确的样本文本图像;根据待裁剪样本文本图像集的样本文本输出结果集,确定所述待裁剪样本文本图像集的目标裁剪位置集,其中,所述待裁剪样本文本图像集是根据所述第一样本文本图像子集确定的;基于所述目标裁剪位置集对所述待裁剪样本文本图像集进行裁剪,得到至少一个裁剪样本文本图像子集;以及根据所述至少一个裁剪样本文本图像子集和所述至少一个样本文本图像子集,得到目标样本文本图像集。2.根据权利要求1所述的方法,其中,所述根据样本文本图像集的样本文本输出结果集和样本标签集,将所述样本文本图像集划分为至少一个样本文本图像子集,包括:将所述样本文本图像集的样本文本输出结果集和样本标签集进行比较,得到比较结果;以及根据所述比较结果,将所述样本文本图像集划分为所述至少一个样本文本图像子集。3.根据权利要求2所述的方法,其中,所述样本文本图像集包括多个样本文本图像,所述至少一个样本文本图像子集还包括第二样本文本图像子集;其中,所述根据所述比较结果,将所述样本文本图像集划分为所述至少一个样本文本图像子集,包括:针对所述多个样本文本图像中的样本文本图像,在确定所述样本文本图像的样本文本输出结果和样本标签之间的关系满足预定匹配条件的情况下,将所述样本文本图像确定为所述第一样本文本图像子集中的样本文本图像;以及在确定所述样本文本图像的样本文本输出结果和样本标签之间的关系不满足所述预定匹配条件的情况下,将所述样本文本图像确定为所述第二样本文本图像子集中的样本文本图像。4.根据权利要求1~3中任一项所述的方法,其中,所述待裁剪样本文本图像集包括多个待裁剪样本文本图像;其中,所述根据待裁剪样本文本图像集的样本文本输出结果集,确定所述待裁剪样本文本图像集的目标裁剪位置集,包括:针对所述待裁剪样本文本图像集中的待裁剪样本文本图像,根据所述待裁剪样本文本图像的样本文本输出结果,从多个候选裁剪位置中确定至少一个所述目标裁剪位置。5.根据权利要求4所述的方法,其中,所述样本文本输出结果包括以下至少之一:样本文本识别输出结果和样本文本语义输出结果。6.根据权利要求5所述的方法,其中,所述样本文本图像集包括多个样本文本图像;其中,所述样本文本识别输出结果是对所述样本文本图像的全局样本特征序列进行序列解码得到的,所述全局样本特征序列是对所述样本文本图像的第一局部样本特征图进行
全局特征提取得到的,所述第一局部样本特征图是对所述样本文本图像进行第一局部特征提取得到的;其中,所述样本文本语义输出结果是对所述样本文本图像的第二局部样本特征图进行语义理解得到的,所述第二局部样本特征图是对所述样本文本图像进行第二局部特征提取得到的。7.根据权利要求5所述的方法,其中,在所述样本文本输出结果包括所述样本文本识别结果和所述样本文本语义输出结果的情况下,所述根据所述待裁剪样本文本图像的样本文本输出结果,从多个候选裁剪位置中确定至少一个所述目标裁剪位置,包括:根据所述待裁剪样本文本图像的样本文本识别输出结果,确定所述多个候选裁剪位置;以及根据所述待裁剪样本文本图像的样本文本语义输出结果,从所述多个候选裁剪位置中确定至少一个所述目标裁剪位置。8.根据权利要求1~3中任一项所述的方法,其中,所述基于所述目标裁剪位置集对所述待裁剪样本文本图像集进行裁剪,得到至少一个裁剪样本文本图像子集,包括:基于所述目标裁剪位置集对所述待裁剪样本文本图像集进行裁剪,得到第一裁剪样本文本图像子集和第二裁剪样本文本图像子集。9.根据权利要求1~3中任一项所述的方法,其中,所述根据所述至少一个裁剪样本文本图像子集和所述至少一个样本文本图像子集,得到目标样本文本图像集,包括:根据所述至少一个裁剪样本文本图像子集,得到第三样本文本图像子集;以及根据所述至少一个样本文本图像子集和所述第三样本文本图像子集,得到所述目标样本文本图像集。10.根据权利要求9所述的方法,其中,所述根据所述至少一个裁剪样本文本图像子集,得到第三样本文本图像子集,包括:基于预定组合策略,将所述至少一个裁剪样本文本图像子集中的裁剪样本文本图像进行组合,得到所述第三样本文本图像子集。11.根据权利要求1~3中任一项所述的方法,其中,所述第一样本文本图像集包括多个第一样本文本图像;其中,所述待裁剪样本文本图像集是通过以下方式确定的:针对所述多个第一样本文本图像中的第一样本文本图像,在确定所述第一样本文本图像的预定概率值小于或等于预定概率阈值的情况下,将所述第一样本文本图像确定为所述待裁剪样本文本图像集中的待裁剪样本文本图像。12.根据权利要求1~3中任一项所述的方法,还包括:对原始样本文本图像集进行数据增强处理,得到中间样本文本图像集;以及根据所述原始样本文本图像集和所述中间样本文本图像集,得到所述样本文本图像集。13.根据权利要求1~3中任一项所述的方法,其中,所述样本文本图像集是文本视觉任务的文本图像集。14.一种深度学习模型的训练方法,包括:获取目标样本文本图像集;以及
利用所述目标样本文本图像集训练所述深度学习模型,得到文本图像处理模型,其中,所述目标样本文本图像集是利用根据权利要求1~13中任一项所述的方法得到的。15.一种文本图像处理方法,包括:获取待处理文本图像;以及将所述待处理文本图像输入文本图像处理模型,得到文本图像处理结果,其中,所述文本图像处理模型是利用根据权利要求14所述的方法训练得到的。16.一种文本图像生成装置,包括:划分模块,用于根据样本文本图像集的样本文本输出结果集和样本标签集,将所述样本文本图像集划分为至少一个样本文本...

【专利技术属性】
技术研发人员:郭若愚杜宇宁赖宝华马艳军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1