【技术实现步骤摘要】
【国外来华专利技术】用于文本
‑
图像
‑
布局变换器模型的迭代训练
[0001]相关申请
[0002]本申请要求于
2021
年2月
17
日提交的第
63/150,271
号美国临时专利申请的利益,该美国临时专利申请通过引用以其整体并入本文
。
专利
[0003]本文公开和要求保护的专利技术属于自然语言处理
(NLP)
领域,特别是包括表格
(table)、
图形
(figure)、
表单
(form)
和图片
(picture)
的真实世界文档的
NLP。
[0004]背景
[0005]自然语言处理
(NLP)
中的大多数任务可以通过将它们转换为问题
、
语境
(context)
和答案的三元组
(triplet)
来统一在一个框架下
。
我们考虑在语境超出文本层的高要求场
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.
一种用于真实世界文档的自然语言处理
(NLP)
的系统,所述系统包括:文本
‑
图像
‑
布局变换器模型
(TILT)
自然语言处理
(NLP)
系统,其在一个或更多个处理器上执行,所述
TILT
系统包括可执行指令,所述可执行指令在由所述处理器执行时执行方法,所述方法包括:执行从包括以下项的组中选择的一个或更多个模型:编码器
‑
解码器模型;空间模型;以及多模态模型;接收至少包括文本数据
、
布局数据和图像数据的数据;以及对接收的数据进行操作以生成与所述接收的数据的分析相关的有用输出;和所述系统还执行接收文档并生成输出的迭代训练过程,其中所述迭代训练过程包括在没有训练数据的情况下实现从文档中的信息检索
。2.
根据权利要求1所述的系统,其中,执行所述一个或更多个模型包括基于命名实体识别
(NER)
的提取,以及断开基于命名实体识别
(NER)
的提取与所述有用输出的连接
。3.
根据权利要求1所述的系统,其中,所述方法还包括接收关于所述接收的数据的一个或更多个问题
。4.
根据权利要求3所述的系统,其中,所述有用输出包括对所述一个或更多个问题的回答
。5.
根据权利要求3所述的系统,其中,所述有用输出包括关键信息
。6.
根据权利要求3所述的系统,其中,所述有用输出包括文档分类
。7.
根据权利要求1所述的系统,其中,所述空间模型包括采用自注意力和涉及图像和文本两者的以单词为中心的掩蔽方法的空间感知变换器模型
。8.
根据权利要求1所述的系统,其中,所述方法还包括扩展
T5
变换器模型以允许多模态输入的消耗
。9.
根据权利要求1所述的系统,其中,所述多模态模型包括将视觉特征添加到在图像的多个分辨率级别上进行语境化的单词嵌入
。10.
根据权利要求9所述的系统,其中,所述多模态模型还包括对相对注意力偏差的依赖性
。11.
根据权利要求1所述的系统,其中,所述方法还包括将
T5
架构方法扩展到空间维度
。12.
根据权利要求1所述的系统,其中,所述方法还包括生成语境化的图像嵌入
。13.
根据权利要求1所述的系统,其中,所述方法还包括空间偏差增强
。14.
一种用于自然语言处理
(NLP)
的方法,所述方法包括:一个或更多个处理器执行指令以执行所述方法,所述指令包括:接收至少包括文本数据
、
布局数据和图像数据的真实世界文档;执行从包括以下项的组中选择的一个或更多个模型:编码器
‑
解码器模型;空间模型;以及多模态模型;对所述真实世界文档进行操作以生成有用输出;以及
进一步执行接收文档并生成输出的迭代训练过程,其中所述迭代训练过程包括在没有训练数据的情况下实现从文档中的信息检索
。15.
根据权利...
【专利技术属性】
技术研发人员:亚当,
申请(专利权)人:阿普利卡有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。