文档处理及文档模型的训练方法、装置、设备和存储介质制造方法及图纸

技术编号:32774065 阅读:11 留言:0更新日期:2022-03-23 19:30
本公开提供了一种文档处理及文档模型的训练方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及自然语言处理、计算机视觉、深度学习等人工智能领域。文档处理方法包括:获取待处理文档的至少一个模态的信息,所述至少一个模态的信息中各个模态的信息包括至少一个处理单元,所述至少一个模态的信息包括文本序列,所述处理单元包括文本单元,且,同一布局下的所述文本单元在所述文本序列内按照预设顺序排列;获取所述至少一个处理单元中各个处理单元的表示向量;基于所述各个处理单元的表示向量,获得所述待处理文档的处理结果。本公开可以提高文档处理效果。开可以提高文档处理效果。开可以提高文档处理效果。

【技术实现步骤摘要】
文档处理及文档模型的训练方法、装置、设备和存储介质


[0001]本公开涉及计算机
,具体涉及自然语言处理、计算机视觉、深度学习等人工智能领域,尤其涉及一种文档处理及文档模型的训练方法、设备和存储介质。

技术介绍

[0002]随着数字化时代的来临,文档从传统的纸质文档逐渐转变为电子文档。为了理解电子文档,可以采用文档模型对电子文档进行处理。
[0003]随着电子文档包含的信息种类越来越多,如何提高文档处理效果是亟需解决的问题。

技术实现思路

[0004]本公开提供了一种文档处理及文档模型的训练方法、设备和存储介质。
[0005]根据本公开的一方面,提供了一种文档处理方法,包括:获取待处理文档的至少一个模态的信息,所述至少一个模态的信息中各个模态的信息包括至少一个处理单元,所述至少一个模态的信息包括文本序列,所述处理单元包括文本单元,且,同一布局下的所述文本单元在所述文本序列内按照预设顺序排列;获取所述至少一个处理单元中各个处理单元的表示向量;基于所述各个处理单元的表示向量,获得所述待处理文档的处理结果。
[0006]根据本公开的另一方面,提供了一种文档模型的训练方法,包括:获取文档样本的至少一个模态的信息,所述至少一个模态的信息中各个模态的信息包括至少一个处理单元,所述至少一个模态的信息包括文本序列,所述至少一个处理单元包括文本单元,且,同一布局下的所述文本单元在所述文本序列内按照预设顺序排列;获取所述至少一个处理单元中各个处理单元的表示向量;基于所述各个处理单元的表示向量,获得所述文档样本的预测结果;基于所述预测结果,构建损失函数;基于所述损失函数,训练文档模型。
[0007]根据本公开的另一方面,提供了一种文档处理装置,包括:第一获取模块,用于获取待处理文档的至少一个模态的信息,所述至少一个模态的信息中各个模态的信息包括至少一个处理单元,所述至少一个模态的信息包括文本序列,所述处理单元包括文本单元,且,同一布局下的所述文本单元在所述文本序列内按照预设顺序排列;第二获取模块,用于获取所述至少一个处理单元中各个处理单元的表示向量;第三获取模块,用于基于所述各个处理单元的表示向量,获得所述待处理文档的处理结果。
[0008]根据本公开的另一方面,提供了一种文档模型的训练装置,包括:第一获取模块,用于获取文档样本的至少一个模态的信息,所述至少一个模态的信息中各个模态的信息包括至少一个处理单元,所述至少一个模态的信息包括文本序列,所述至少一个处理单元包括文本单元,且,同一布局下的所述文本单元在所述文本序列内按照预设顺序排列;第二获取模块,用于获取所述至少一个处理单元中各个处理单元的表示向量;第三获取模块,用于基于所述各个处理单元的表示向量,获得所述文档样本的预测结果;构建模块,用于基于所述预测结果,构建损失函数;训练模块,用于基于所述损失函数,训练文档模型。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
[0012]根据本公开的技术方案,可以提高文档处理效果。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1是根据本公开第一实施例的示意图;
[0016]图2是根据本公开第二实施例的示意图;
[0017]图3是根据本公开第三实施例的示意图;
[0018]图4是根据本公开第四实施例的示意图;
[0019]图5是根据本公开第五实施例的示意图;
[0020]图6是根据本公开第六实施例的示意图;
[0021]图7是根据本公开第七实施例的示意图;
[0022]图8是根据本公开第八实施例的示意图;
[0023]图9是根据本公开第九实施例的示意图;
[0024]图10是用来实现本公开实施例的文档处理方法或文档模型的训练方法的电子设备的示意图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]图1是根据本公开第一实施例的示意图,本实施例提供一种文档预训练模型的训练方法,包括:
[0027]101、获取待处理文档的至少一个模态的信息,所述至少一个模态的信息中各个模态的信息包括至少一个处理单元,所述至少一个模态的信息包括文本序列,所述至少一个处理单元包括文本单元,且,同一布局下的所述文本单元在所述文本序列内按照预设顺序排列。
[0028]102、获取所述至少一个处理单元中各个处理单元的表示向量。
[0029]103、基于所述各个处理单元的表示向量,获得所述待处理文档的处理结果。
[0030]本实施例的执行主体可以称为文档处理装置,文档处理装置可以为软件、硬件或者软硬结合,该装置可以位于电子设备中。该电子设备可以位于服务端或者终端设备,服务端可以为本地服务器或者云端,终端设备可以包括:个人电脑(Personal Computer、PC)、便携式电脑、移动设备(如手机、平板电脑)、车载终端(如车机)、可穿戴式设备(如智能手表、智能手环)、智能家居设备(如智能电视、智能音箱)等。
[0031]文档处理方法可以应用于多种场景,比如,信息抽取、文档分类,信息抽取比如抽取电子发票中的合同号、时间、货品信息等;文档分类比如将电子文档分为技术文档、法律文档、合同文档等。
[0032]本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0033]以信息抽取为例,参见图2,用户可以通过终端设备201上传待处理文档,终端设备201可以将待处理文档发送给服务器202,由服务器完成待处理文档的信息抽取。
[0034]可以理解的是,如果终端设备的性能足够,也可以在终端设备本地执行文档处理过程。
[0035]待处理文档为电子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,包括:获取待处理文档的至少一个模态的信息,所述至少一个模态的信息中各个模态的信息包括至少一个处理单元,所述至少一个模态的信息包括文本序列,所述处理单元包括文本单元,且,同一布局下的所述文本单元在所述文本序列内按照预设顺序排列;获取所述至少一个处理单元中各个处理单元的表示向量;基于所述各个处理单元的表示向量,获得所述待处理文档的处理结果。2.根据权利要求1所述的方法,其中,所述获取所述至少一个处理单元中各个处理单元的表示向量,包括:获取所述各个处理单元的语义表示向量,以及所述各个处理单元的格式表示向量,所述格式表示向量包括如下项中的至少一项:位置表示向量、片段表示向量、布局表示向量;基于所述语义表示向量和所述格式表示向量,获得所述各个处理单元的表示向量。3.根据权利要求1或2所述的方法,其中,所述基于所述各个处理单元的表示向量,获得所述待处理文档的处理结果,包括:基于空间感知的自注意力网络,对所述各个处理单元的表示向量进行处理,以获得隐层编码向量;对所述隐层编码向量进行解码处理,以获得所述待处理文档的处理结果。4.根据权利要求1或2所述的方法,其中,针对所述至少一个模态的信息包括的文本序列,所述获取待处理文档的至少一个模态的信息,包括:对所述待处理文档进行OCR,以获得所述待处理文档内的所述文本单元;对所述文本单元进行布局解析,以获得所述文本单元的布局信息;基于所述布局信息,对不同布局下的所述文本单元依次拼接,以及,将同一布局下的所述文本单元按照预设顺序排列。5.根据权利要求2所述的方法,其中,所述至少一个模态的信息还包括:所述待处理文档对应的图像,所述获取所述各个处理单元的语义表示向量,包括:若所述至少一个模态的信息为所述文本序列,对所述文本序列中的各个文本单元进行语义嵌入处理,以获得所述各个文本单元的语义表示向量;和/或,若所述至少一个模态的信息为所述图像,对所述图像进行视觉编码,以获得所述图像中的各个图像单元的语义表示向量。6.一种文档模型的训练方法,包括:获取文档样本的至少一个模态的信息,所述至少一个模态的信息中各个模态的信息包括至少一个处理单元,所述至少一个模态的信息包括文本序列,所述至少一个处理单元包括文本单元,且,同一布局下的所述文本单元在所述文本序列内按照预设顺序排列;获取所述至少一个处理单元中各个处理单元的表示向量;基于所述各个处理单元的表示向量,获得所述文档样本的预测结果;基于所述预测结果,构建损失函数;基于所述损失函数,训练文档模型。7.根据权利要求6所述的方法,其中,所述基于所述各个处理单元的表示向量,获得预测向量,包括:基于所述各个处理单元的表示向量,执行多个任务,以获得所述多个任务中的各个任
务对应的预测结果,所述多个任务包括:文本任务、图文任务和布局任务。8.根据权利要求7所述的方法,其中,所述图文任务包括细粒度图文匹配任务,所述处理单元包括图像单元,所述图像单元中的任一图像单元被随机替换,针对所述细粒度图文匹配任务,所述基于所述各个处理单元的表示向量,执行多个任务,以获得所述多个任务中的各个任务对应的预测结果,包括:基于所述图像单元的表示向量,获得所述细粒度图文匹配任务对应的预测结果,所述所述细粒度图文匹配任务对应的预测结果用以预测被替换的图像单元。9.根据权利要求6

8任一项所述的方法,其中,所述获取所述至少一个处理单元中各个处理单元的表示向量,包括:获取所述各个处理单元的语义表示向量,以及所述各个处理单元的格式表示向量,所述格式表示向量包括如下项中的至少一项:位置表示向量、片段表示向量、布局表示向量;基于所述语义表示向量和所述格式表示向量,获得所述各个处理单元的表示向量。10.根据权利要求6

8任一项所述的方法,其中,所述基于所述各个处理单元的表示向量,获得所述文档样本的预测结果,包括:基于空间感知的自注意力网络,对所述各个处理单元的表示向量进行处理,以获得隐层编码向量;对所述隐层编码向量进行解码处理,以获得所述文档样本的预测结果。11.根据权利要求6

8任一项所述的方法,其中,针对所述至少一个模态的信息包括的文本序列,所述获取文档样本的至少一个模态的信息,包括:对所述文档样本进行OCR,以获得所述文档样本内的所述文本单元;对所述文本单元进行布局解析,以获得所述文本单元的布局信息;基于所述布局信息,对不同布局下的所述文本单元依次拼接,以及,将同一布局下的所述文本单元按照预设顺序排列。12.根据权利要求9所述的方法,其中,所述至少一个模态的信息还包括:所述文档样本对应的图像,所述获取所述各个处理单元的语义表示向量,包括:若所述至少一个模态的信息为所述文本序列,对所述文本序列中的各个文本单元进行语义嵌入处理,以获得所述各个文本单元的语义表示向量;和/或,若所述至少一个模态的信息为所述图像,对所述图像进行视觉编码,以获得所述图像中的各个图像单元的语义表示向量。13.一种文档处理装置,包括:第一获取模块,用于获取待处理文档的至少一个模态的信息,所述至少一个模态的信息中各个模态的信息包括至少一个处理单元,所述至少一个模态的信息包括文本序列,所述处理单元包括文本单元,且,同一布局下的所述文本单...

【专利技术属性】
技术研发人员:彭启明罗斌曹宇慧冯仕堃陈永锋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1