图像处理方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:33080622 阅读:13 留言:0更新日期:2022-04-15 10:33
本申请实施例公开了一种图像处理方法、装置、计算机设备以及存储介质。图像处理方法包括:获取待识别图像,对待识别图像进行字符识别处理,得到识别结果;其中,识别结果包括识别到的数据序列,数据序列包括字符序列、图像序列和位置序列中的一个或多个;基于数据序列的多模态特征序列对数据序列进行序列标注处理,得到数据序列中每个数据的结构化类别;根据数据序列和数据序列中每个数据的结构化类别,创建与待识别图像对应的结构化文档。采用本申请,可以提升将图片转换为结构化文档的效率和准确率。准确率。准确率。

【技术实现步骤摘要】
图像处理方法、装置、计算机设备以及存储介质


[0001]本申请涉及计算机
,尤其涉及一种图像处理方法、装置、计算机设备、存储介质以及计算机程序产品。

技术介绍

[0002]现在越来越多的资源信息是以图像的方式进行存储,将图像中的字符转换为结构化文档有利于文档检索、文档分析、文本编辑以及以及其它智能化等服务。例如,将企业营业执照的照片转换为结构化文档,可以提升检索效率。
[0003]目前,是由人工将图像转换为结构化的文档,主要过程包括:人工定位字符区域,人工识别字符区域文字,人工输入文字以生成结构化文档。由人工将图像转换为结构化文档会导致效率低下,且易受主观因素影响,会降低准确性。

技术实现思路

[0004]本申请实施例提供一种图像处理方法、装置、计算机设备、存储介质以及计算机程序产品,可以提升将图片转换为结构化文档的效率和准确率。
[0005]本申请实施例一方面提供了一种图像处理方法,包括:
[0006]获取待识别图像,对所述待识别图像进行字符识别处理,得到识别结果;其中,所述识别结果包括识别到的数据序列,所述数据序列包括字符序列、图像序列和位置序列中的一个或多个,所述字符序列是所述待识别图像中的字符组成的序列,所述图像序列是所述字符序列中的每个字符在所述待识别图像中的切片组成的序列,所述位置序列是所述字符序列中的每个字符在所述待识别图像中的位置组成序列;
[0007]基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理,得到所述数据序列中每个数据的结构化类别;
[0008]根据所述数据序列和所述数据序列中每个数据的结构化类别,创建与所述待识别图像对应的结构化文档。
[0009]本申请实施例一方面提供了一种图像处理装置,包括:
[0010]获取模块,用于获取待识别图像,对所述待识别图像进行字符识别处理,得到识别结果;其中,所述识别结果包括识别到的数据序列,所述数据序列包括字符序列、图像序列和位置序列中的一个或多个,所述字符序列是所述待识别图像中的字符组成的序列,所述图像序列是所述字符序列中的每个字符在所述待识别图像中的切片组成的序列,所述位置序列是所述字符序列中的每个字符在所述待识别图像中的位置组成序列;
[0011]识别模块,用于基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理,得到所述数据序列中每个数据的结构化类别;
[0012]创建模块,用于根据所述数据序列和所述数据序列中每个数据的结构化类别,创建与所述待识别图像对应的结构化文档。
[0013]本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储
有计算机程序,计算机程序被处理器执行时,使得处理器执行上述各实施例中的方法。
[0014]本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。
[0015]本申请实施例一方面提供了一种计算机程序产品,计算机程序产品包括计算机程序/计算机指令,计算机程序/计算机指令存储在计算机可读存储介质中,计算机程序/计算机指令被计算机设备的处理器执行时,执行上述各实施例中的方法。
[0016]本申请由终端设备自动将图像转换为结构化文档,不需要人工参与,可以提升将图像转换为结构化文档的效率,且终端设备自动执行,可以摒除主观因素的干扰,提升将图像转换为结构化文档的准确率;再有,多模态特征从多个维度来表征数据序列,可以提升结构化类别的识别准确性,进而提升成结构化文档的准确性;进一步地,通过识别数据序列中每个数据的结构化类别,进而生成结构化文档,不受字符在待识别图像中的排版限制,可以保证本申请在图像转结构化文档领域上的通用性。
附图说明
[0017]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术实施例提供的一种图像处理的系统架构图;
[0019]图2是本申请实例提供的一种图像处理的场景示意图;
[0020]图3是本申请实施例提供的一种图像处理的示意图;
[0021]图4是本申请实施例提供的一种结构化类别的示意图;
[0022]图5是本申请实施例提供的一种基于图神经网络进行文档识别的示意图;
[0023]图6是本申请实施例提供的一种生成结构化文档的示意图;
[0024]图7是本申请实施例提供的一种图像处理的示意图;
[0025]图8是本申请实施例提供的一种图像处理的示意图;
[0026]图9是本申请实施例提供的一种训练多模态特征提取模型的流程示意图;
[0027]图10是本申请实施例提供的一种替换任务的示意图;
[0028]图11是本申请实施例提供的一种训练多模态特征提取模型的流程示意图;
[0029]图12是本申请实施例提供的一种匹配任务的示意图;
[0030]图13是本申请实施例提供的一种训练多模态特征提取模型的流程示意图;
[0031]图14是本申请实施例提供的一种分类任务的示意图;
[0032]图15是本申请实施例提供的一种图像处理装置的结构示意图;
[0033]图16是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于
本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0035]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0036]本申请涉及人工智能下属的计算机视觉技术(Computer Vision,CV)和自然语言处理(Nature Language processing,NLP),具体涉及计算机视觉技术中的OCR(Optical Character Recognition,光学字符识别)技术,和自然语言处理中的序列标注技术。
[0037]OCR技术是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法,其特征在于,包括:获取待识别图像,对所述待识别图像进行字符识别处理,得到识别结果;其中,所述识别结果包括识别到的数据序列,所述数据序列包括字符序列、图像序列和位置序列中的一个或多个,所述字符序列是所述待识别图像中的字符组成的序列,所述图像序列是所述字符序列中的每个字符在所述待识别图像中的切片组成的序列,所述位置序列是所述字符序列中的每个字符在所述待识别图像中的位置组成序列;基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理,得到所述数据序列中每个数据的结构化类别;根据所述数据序列和所述数据序列中每个数据的结构化类别,创建与所述待识别图像对应的结构化文档。2.根据权利要求1所述的方法,其特征在于,当所述数据序列包括字符序列、图像序列和位置序列中的多个时,所述基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理,得到所述数据序列中每个数据的结构化类别,包括:将所述数据序列包含的多个序列分别转为特征序列,并将多个特征序列对位拼接为所述数据序列的多模态特征序列;调用多模态特征提取模型对所述多模态特征序列进行编码,得到多模态结构化特征序列;调用结构化类别识别模型对所述多模态结构化特征序列进行解码,得到所述数据序列中每个数据的结构化类别。3.根据权利要求2所述的方法,其特征在于,所述多模态特征提取模型是基于预训练任务所训练的特征提取模型,所述预训练任务包括替换任务、匹配任务和分类任务中的一个或多个;所述替换任务是对第一模态样本序列进行数据替换处理,并根据第二模态样本序列预测处理后的第一模态样本序列中每个样本的替换结果,所述第一模态样本序列和所述第二模态样本序列是样本图像序列、样本字符序列和样本位置序列中的两个不同序列,所述样本字符序列是第一模态样本序列或第二模态样本序列;所述匹配任务是预测样本图像子序列和样本字符子序列之间的上下文关系,所述样本图像子序列是所述样本图像序列的子序列,所述样本字符子序列是所述样本字符序列的子序列;所述分类任务是预测所述样本字符序列的文档类别,所述样本图像序列、所述样本字符序列和所述样本位置序列之间均具有对应关系。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取第一模态样本序列和第二模态样本序列,对所述第一模态样本序列进行替换处理,得到替换样本序列;将所述替换样本序列转换为替换特征序列,以及将所述第二模态样本序列转换为第二模态样本特征序列,将所述替换特征序列和所述第二模态样本特征序列对位拼接为第一样本多模态特征序列;调用所述多模态特征提取模型对所述第一样本多模态特征序列进行编码,得到第一样本结构化特征序列;
调用替换判别模型对所述第一样本结构化特征序列进行解码,得到预测替换结果序列;获取所述替换样本序列的替换结果标签序列,根据所述替换结果标签序列和所述预测替换结果序列训练所述多模态特征提取模型。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取样本图像序列,从所述样本图像序列中抽取样本图像子序列;获取样本字符序列,从所述样本字符序列中抽取样本字符子序列;将所述样本图像子序列转为样本图像特征子序列,并将所述样本字符子序列的样本字符特征子序列,将所述样本图像特征子序列和所述样本字符特征子序列对位拼接为第二样本多模态特征序列;调用所述多模态特征提取模型对所述第二样本多模态特征序列进行编码,得到第二样本结构化特征序列;调用关系判别模型对所述第二样本结构化特征序列进行解码,得到预测上下文关系;获取所述样本图像子序列和所述样本字符子序列之间的上下文关系标签,根据所述预测上下文关系和所述上下文关系标签训练所述多模态特征提取模型。6.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取样本字符序列,将所述样本字符序列转换为样本字符特征序列;调用所述多模态特征提取模型对所述样本字符特征序列进行编码,得到第三样本结构化特征序列;调用类型判别模型对所述第三样本结构化特征序列进行解码,得到预测类别;获取所述样本字符序列的类别标签,根据所述预测类别和所述类别标签训练所述多模态特征提取模型。7.根据权利要求2所述的方法,其特征在于,所述结构化类别包括键结构类别和值结构类别,当所述数据序列至少包括字符序列时,所述根据所述数据序列和所述数据序列中每个数据的结构化类别,创建与所述待识别图像对应的结构化文档,包括:将属于所述键结构类别的字符组合为键字段,将属于所述值结构类别的字符组合为值字段,所述键...

【专利技术属性】
技术研发人员:曹浩宇包志敏王斌刘银松姜德强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1