文档处理及文档模型的训练方法、装置、设备和存储介质制造方法及图纸

技术编号：32774065 阅读：11 留言：0更新日期：2022-03-23 19:30

本公开提供了一种文档处理及文档模型的训练方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及自然语言处理、计算机视觉、深度学习等人工智能领域。文档处理方法包括：获取待处理文档的至少一个模态的信息，所述至少一个模态的信息中各个模态的信息包括至少一个处理单元，所述至少一个模态的信息包括文本序列，所述处理单元包括文本单元，且，同一布局下的所述文本单元在所述文本序列内按照预设顺序排列；获取所述至少一个处理单元中各个处理单元的表示向量；基于所述各个处理单元的表示向量，获得所述待处理文档的处理结果。本公开可以提高文档处理效果。开可以提高文档处理效果。开可以提高文档处理效果。

全部详细技术资料下载

【技术实现步骤摘要】
文档处理及文档模型的训练方法、装置、设备和存储介质

[0001]本公开涉及计算机
，具体涉及自然语言处理、计算机视觉、深度学习等人工智能领域，尤其涉及一种文档处理及文档模型的训练方法、设备和存储介质。

技术介绍

[0002]随着数字化时代的来临，文档从传统的纸质文档逐渐转变为电子文档。为了理解电子文档，可以采用文档模型对电子文档进行处理。
[0003]随着电子文档包含的信息种类越来越多，如何提高文档处理效果是亟需解决的问题。

技术实现思路

[0004]本公开提供了一种文档处理及文档模型的训练方法、设备和存储介质。
[0005]根据本公开的一方面，提供了一种文档处理方法，包括：获取待处理文档的至少一个模态的信息，所述至少一个模态的信息中各个模态的信息包括至少一个处理单元，所述至少一个模态的信息包括文本序列，所述处理单元包括文本单元，且，同一布局下的所述文本单元在所述文本序列内按照预设顺序排列；获取所述至少一个处理单元中各个处理单元的表示向量；基于所述各个处理单元的表示向量，获得所述待处理文档的处理结果。
[0006]根据本公开的另一方面，提供了一种文档模型的训练方法，包括：获取文档样本的至少一个模态的信息，所述至少一个模态的信息中各个模态的信息包括至少一个处理单元，所述至少一个模态的信息包括文本序列，所述至少一个处理单元包括文本单元，且，同一布局下的所述文本单元在所述文本序列内按照预设顺序排列；获取所述至少一个处理单元中各个处理单元的表示向量；基于所述各个处理单元的表示向量...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法，包括：获取待处理文档的至少一个模态的信息，所述至少一个模态的信息中各个模态的信息包括至少一个处理单元，所述至少一个模态的信息包括文本序列，所述处理单元包括文本单元，且，同一布局下的所述文本单元在所述文本序列内按照预设顺序排列；获取所述至少一个处理单元中各个处理单元的表示向量；基于所述各个处理单元的表示向量，获得所述待处理文档的处理结果。2.根据权利要求1所述的方法，其中，所述获取所述至少一个处理单元中各个处理单元的表示向量，包括：获取所述各个处理单元的语义表示向量，以及所述各个处理单元的格式表示向量，所述格式表示向量包括如下项中的至少一项：位置表示向量、片段表示向量、布局表示向量；基于所述语义表示向量和所述格式表示向量，获得所述各个处理单元的表示向量。3.根据权利要求1或2所述的方法，其中，所述基于所述各个处理单元的表示向量，获得所述待处理文档的处理结果，包括：基于空间感知的自注意力网络，对所述各个处理单元的表示向量进行处理，以获得隐层编码向量；对所述隐层编码向量进行解码处理，以获得所述待处理文档的处理结果。4.根据权利要求1或2所述的方法，其中，针对所述至少一个模态的信息包括的文本序列，所述获取待处理文档的至少一个模态的信息，包括：对所述待处理文档进行OCR，以获得所述待处理文档内的所述文本单元；对所述文本单元进行布局解析，以获得所述文本单元的布局信息；基于所述布局信息，对不同布局下的所述文本单元依次拼接，以及，将同一布局下的所述文本单元按照预设顺序排列。5.根据权利要求2所述的方法，其中，所述至少一个模态的信息还包括：所述待处理文档对应的图像，所述获取所述各个处理单元的语义表示向量，包括：若所述至少一个模态的信息为所述文本序列，对所述文本序列中的各个文本单元进行语义嵌入处理，以获得所述各个文本单元的语义表示向量；和/或，若所述至少一个模态的信息为所述图像，对所述图像进行视觉编码，以获得所述图像中的各个图像单元的语义表示向量。6.一种文档模型的训练方法，包括：获取文档样本的至少一个模态的信息，所述至少一个模态的信息中各个模态的信息包括至少一个处理单元，所述至少一个模态的信息包括文本序列，所述至少一个处理单元包括文本单元，且，同一布局下的所述文本单元在所述文本序列内按照预设顺序排列；获取所述至少一个处理单元中各个处理单元的表示向量；基于所述各个处理单元的表示向量，获得所述文档样本的预测结果；基于所述预测结果，构建损失函数；基于所述损失函数，训练文档模型。7.根据权利要求6所述的方法，其中，所述基于所述各个处理单元的表示向量，获得预测向量，包括：基于所述各个处理单元的表示向量，执行多个任务，以获得所述多个任务中的各个任
务对应的预测结果，所述多个任务包括：文本任务、图文任务和布局任务。8.根据权利要求7所述的方法，其中，所述图文任务包括细粒度图文匹配任务，所述处理单元包括图像单元，所述图像单元中的任一图像单元被随机替换，针对所述细粒度图文匹配任务，所述基于所述各个处理单元的表示向量，执行多个任务，以获得所述多个任务中的各个任务对应的预测结果，包括：基于所述图像单元的表示向量，获得所述细粒度图文匹配任务对应的预测结果，所述所述细粒度图文匹配任务对应的预测结果用以预测被替换的图像单元。9.根据权利要求6
‑
8任一项所述的方法，其中，所述获取所述至少一个处理单元中各个处理单元的表示向量，包括：获取所述各个处理单元的语义表示向量，以及所述各个处理单元的格式表示向量，所述格式表示向量包括如下项中的至少一项：位置表示向量、片段表示向量、布局表示向量；基于所述语义表示向量和所述格式表示向量，获得所述各个处理单元的表示向量。10.根据权利要求6
‑
8任一项所述的方法，其中，所述基于所述各个处理单元的表示向量，获得所述文档样本的预测结果，包括：基于空间感知的自注意力网络，对所述各个处理单元的表示向量进行处理，以获得隐层编码向量；对所述隐层编码向量进行解码处理，以获得所述文档样本的预测结果。11.根据权利要求6
‑
8任一项所述的方法，其中，针对所述至少一个模态的信息包括的文本序列，所述获取文档样本的至少一个模态的信息，包括：对所述文档样本进行OCR，以获得所述文档样本内的所述文本单元；对所述文本单元进行布局解析，以获得所述文本单元的布局信息；基于所述布局信息，对不同布局下的所述文本单元依次拼接，以及，将同一布局下的所述文本单元按照预设顺序排列。12.根据权利要求9所述的方法，其中，所述至少一个模态的信息还包括：所述文档样本对应的图像，所述获取所述各个处理单元的语义表示向量，包括：若所述至少一个模态的信息为所述文本序列，对所述文本序列中的各个文本单元进行语义嵌入处理，以获得所述各个文本单元的语义表示向量；和/或，若所述至少一个模态的信息为所述图像，对所述图像进行视觉编码，以获得所述图像中的各个图像单元的语义表示向量。13.一种文档处理装置，包括：第一获取模块，用于获取待处理文档的至少一个模态的信息，所述至少一个模态的信息中各个模态的信息包括至少一个处理单元，所述至少一个模态的信息包括文本序列，所述处理单元包括文本单元，且，同一布局下的所述文本单...

【专利技术属性】
技术研发人员：彭启明，罗斌，曹宇慧，冯仕堃，陈永锋，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人