文本-图像-布局变换器模型（制造技术

技术编号：39418323 阅读：24 留言：0更新日期：2023-11-19 16:08

本文公开了一种用于真实世界文档的自然语言处理

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】文本
‑
图像
‑
布局变换器模型(TILT)
[0001]相关申请
[0002]本申请要求于2021年2月17日提交的第63/150,271号美国临时专利申请的利益，该美国临时专利申请通过引用以其整体并入本文。
专利

[0003]本文公开和要求保护的专利技术属于自然语言处理(NLP)领域，特别是包括表格(table)、图形(figure)、表单(form)和图片(picture)的真实世界文档的NLP。
[0004]背景
[0005]自然语言处理(NLP)中的大多数任务可以通过将它们转换为问题、语境(context)和答案的三元组(triplet)来统一在一个框架下。我们考虑在语境超出文本层的高要求场景中实现文档分类、关键信息提取和问题回答的这种统一。
[0006]这种挑战在商业案例中很普遍，因为合同、表单、应用和发票涵盖了各种各样的文档类型和复杂的空间布局。
[0007]到目前为止，在NLP中取得的成功包括将原始文本输入映射到原始文本输出的模型，这些模型通常以...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于真实世界文档的自然语言处理(NLP)的系统，所述系统包括：文本
‑
图像
‑
布局变换器模型(TILT)自然语言处理(NLP)系统，其在一个或更多个处理器上执行，所述TILT系统包括可执行指令，所述可执行指令在由所述处理器执行时执行方法，所述方法包括：执行从包括以下项的组中选择的一个或更多个模型：编码器
‑
解码器模型；空间模型；以及多模态模型；接收至少包括文本数据、布局数据和图像数据的数据；以及对接收的数据进行操作以生成与所述接收的数据的分析相关的有用输出。2.根据权利要求1所述的系统，其中，执行所述一个或更多个模型包括基于命名实体识别(NER)的提取，以及断开基于命名实体识别(NER)的提取与所述有用输出的连接。3.根据权利要求1所述的系统，其中，所述方法还包括接收关于所述接收的数据的一个或更多个问题。4.根据权利要求3所述的系统，其中，所述有用输出包括对所述一个或更多个问题的回答。5.根据权利要求3所述的系统，其中，所述有用输出包括关键信息。6.根据权利要求3所述的系统，其中，所述有用输出包括文档分类。7.根据权利要求1所述的系统，其中，所述空间模型包括采用自注意力和涉及图像和文本两者的以单词为中心的掩蔽方法的空间感知变换器模型。8.根据权利要求1所述的系统，其中，所述方法还包括扩展T5变换器模型以允许多模态输入的消耗。9.根据权利要求1所述的系统，其中，所述多模态模型包括将视觉特征添加到在图像的多个分辨率级别上进行语境化的单词嵌入。10.根据权利要求9所述的系统，其中，所述多模态模型还包括对相对注意力偏差的依赖性。11.根据权利要求1所述的系统，其中，所述方法还包括将T5架构方法扩展到空间维度。12.根据权利要求1所述的系统，其中，所述方法还包括生成语境化的图像嵌入。13.根据权利要求1所述的系统，其中，所述方法还包括空间偏差增强。14.一种用于自然语言处理(NLP)的方法，所述方法包括：一个或更多个处理器执行指令以执行所述方法，所述指令包括：接收真实世界文档，所述真实世界文档至少包括文本数据、布局数据和图像数据；执行从包括以下项的组中选择的一个或更多个模型：编码器
‑
...

【专利技术属性】
技术研发人员：卢卡什，
申请(专利权)人：阿普利卡有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人