图像的理解方法和装置制造方法及图纸

技术编号:36124702 阅读:12 留言:0更新日期:2022-12-28 14:31
本公开提供了图像的理解方法和装置,涉及人工智能技术领域。具体实施方式包括:获取文档图像和文档图像对应的指示信息,其中,指示信息用于指示对文档图像中文档的理解需求;将文档图像和指示信息输入文档理解模型,得到从文档理解模型输出的文档理解结果,其中,文档理解结果符合理解需求,文档理解模型用于按照理解需求处理文档图像中的文档,文档理解模型包括编码器和解码器。本公开可以通过文档理解模型,实现端到端的文档理解过程,简化了文档理解过程。并且,本申请采用编码器和解码器,在不采用光学字符识别的情况下实现了文档理解,满足了对文档的理解需求。满足了对文档的理解需求。满足了对文档的理解需求。

【技术实现步骤摘要】
图像的理解方法和装置


[0001]本公开涉及人工智能领域,具体涉及深度学习和计算机视觉
,尤其涉及图像的理解方法和装置。

技术介绍

[0002]视觉文档理解指理解图像中文档的技术。在相关技术中,视觉文档理解通常采用光学字符识别(OCR)技术实现。
[0003]具体地,光学字符识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。该过程采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式。

技术实现思路

[0004]提供了一种图像的理解方法、装置、电子设备以及存储介质。
[0005]根据第一方面,提供了一种图像的理解方法,包括:获取文档图像和文档图像对应的指示信息,其中,指示信息用于指示对文档图像中文档的理解需求;将文档图像和指示信息输入文档理解模型,得到从文档理解模型输出的文档理解结果,其中,文档理解结果符合理解需求,文档理解模型用于按照理解需求处理文档图像中的文档,文档理解模型包括编码器和解码器。
[0006]根据第二方面,提供了一种图像的理解装置,包括:获取单元,被配置成获取文档图像和文档图像对应的指示信息,其中,指示信息用于指示对文档图像中文档的理解需求;输入单元,被配置成将文档图像和指示信息输入文档理解模型,得到从文档理解模型输出的文档理解结果,其中,文档理解结果符合理解需求,文档理解模型用于按照理解需求处理文档图像中的文档,文档理解模型包括编码器和解码器。
[0007]根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行图像的理解方法中任一实施例的方法。
[0008]根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据图像的理解方法中任一实施例的方法。
[0009]根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据图像的理解方法中任一实施例的方法。
[0010]根据本公开的方案,可以通过文档理解模型,实现端到端的文档理解过程,简化了文档理解过程。并且,本申请采用编码器和解码器,在不采用光学字符识别的情况下实现了文档理解,满足了对文档的理解需求。
附图说明
[0011]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
[0012]图1是本公开一些实施例可以应用于其中的示例性系统架构图;
[0013]图2是根据本公开的图像的理解方法的一个实施例的流程图;
[0014]图3是根据本公开的图像的理解方法的又一个实施例的流程图;
[0015]图4是根据本公开的图像的理解装置的一个实施例的结构示意图;
[0016]图5是用来实现本公开实施例的图像的理解方法的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0019]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0020]图1示出了可以应用本公开的图像的理解方法或图像的理解装置的实施例的示例性系统架构100。
[0021]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0022]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。
[0023]这里的终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
[0024]服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的图像等数据进行分析等处理,并将处理结果(例如文档理解结果)反馈给终端设备。
[0025]需要说明的是,本公开实施例所提供的图像的理解方法可以由服务器105或者终端设备101、102、103执行,相应地,图像的理解装置可以设置于服务器105或者终端设备101、102、103中。
[0026]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0027]继续参考图2,示出了根据本公开的图像的理解方法的一个实施例的流程200。该图像的理解方法,包括以下步骤:
[0028]步骤201,获取文档图像和文档图像对应的指示信息,其中,指示信息用于指示对文档图像中文档的理解需求。
[0029]在本实施例中,图像的理解方法运行于其上的执行主体(例如图1所示的服务器或终端设备)可以获取包含文档的图像,还可以获取该图像的指示信息。该指示信息用于指示对于该文档的理解需求。理解需求可以采用各种语言形式表示,比如机器语言。
[0030]步骤202,将文档图像和指示信息输入文档理解模型,得到从文档理解模型输出的文档理解结果,其中,文档理解结果符合理解需求,文档理解模型用于按照理解需求处理文档图像中的文档,文档理解模型包括编码器和解码器。
[0031]在本实施例中,上述执行主体将上述文档图像和指示信息输入文档理解模型,得到该文档理解模型输出的文档理解结果。这里的文档理解模型用于理解文档图像中的文档,以得到相应的文档理解结果。文档理解结果符合理解需求指,该文档理解结果是基于对文档图像中文档的理解,处理文档所得到的。
[0032]举例来说,该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像的理解方法,所述方法包括:获取文档图像和所述文档图像对应的指示信息,其中,所述指示信息用于指示对所述文档图像中文档的理解需求;将所述文档图像和所述指示信息输入文档理解模型,得到从所述文档理解模型输出的文档理解结果,其中,所述文档理解结果符合所述理解需求,所述文档理解模型用于按照所述理解需求处理文档图像中的文档,所述文档理解模型包括编码器和解码器。2.根据权利要求1所述的方法,其中,所述将所述文档图像和所述指示信息输入文档理解模型,得到从所述文档理解模型输出的文档理解结果,包括:将所述文档图像和所述指示信息输入所述编码器,得到编码信息,其中,所述编码信息包括所述图像的隐状态;将所述编码信息和所述指示信息输入所述解码器,得到从所述解码器输出的文档理解结果。3.根据权利要求1所述的方法,其中,所述指示信息包括自然语言语句。4.根据权利要求1

3之一所述的方法,其中,所述文档理解模型的训练步骤包括:对待训练的文档理解模型执行存在至少一项文档识别任务的自监督训练步骤,得到预训练后的文档理解模型,其中,训练的样本包括样本图像,所述样本图像为文档图像;对所述预训练后的文档理解模型执行存在至少一项文档解析任务的有监督训练步骤。5.根据权利要求4所述的方法,其中,若所述文档解析任务存在至少两项,则所述指示信息与其中一项文档解析任务相对应。6.根据权利要求4所述的方法,其中,所述文档识别任务包括以下的至少一项:布局及文本识别、阅读顺序识别、掩膜识别;所述文档解析任务包括以下的至少一项:文档分类、文档解析和文档问答,其中,所述文档分析任务的目标输出为结构化信息。7.根据权利要求4所述的方法,其中,所述样本包括样本图像;所述样本图像的获取步骤包括:获取多个至少一种样本构成要素;将所述至少一种样本构成要素,与原始样本图像中的所述至少一种样本构成要素以外的样本构成要素合...

【专利技术属性】
技术研发人员:高臻付靖玲裴积全
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1