文档中文本的语义表示制造技术

技术编号:37138639 阅读:22 留言:0更新日期:2023-04-06 21:40
提供了一种用于文档中文本的语义表示的解决方案。在此解决方案中,从文档中确定包括文本元素(220)的序列的文本信息和文本元素的布局信息(230)。布局信息(230)指示文档内呈现的多个文本元素(220)的空间布置。至少部分地基于多个文本元素(220)和布局信息(230),生成多个文本元素(220)的相应语义特征表示(180)。通过联合使用文本信息和布局信息(230)两者,可以在特征表示中有效地捕获文档中文本元素(220)的丰富语义。(220)的丰富语义。(220)的丰富语义。

【技术实现步骤摘要】
【国外来华专利技术】文档中文本的语义表示

技术介绍

[0001]文档人工智能(AI)或文档智能是一种趋向性的应用领域,它使用技术自动读取、理解和分析文档。文档可以是数字生成的,以电子文件的形式出现,或者包含从书写的或打印的纸上捕获的图像。文档的示例包括采购订单、财务报告、商业电子邮件、销售协议、供应商合同、信函、发票、收据、简历等。理解和分析文档(尤其是业务文档),可以极大地促进人们的日常生活,提高业务效率和生产力。文档的格式和布局可能有所不同,从纯文本到各种列、图表和图等。尽管如此,文档中包含的信息通常以自然语言表示。通常,文档理解(尤其是针对那些包含图像的文档)涉及文本识别和自然语言处理。

技术实现思路

[0002]根据本文描述的主题的实现,提供了一种用于确定文档中文本的语义表示的解决方案。在此解决方案中,从文档中确定包括文本元素的序列的文本信息和文本元素的布局信息。布局信息指示文档内呈现的文本元素序列的空间布置。至少部分地基于文本元素和布局信息,生成文本元素的相应语义特征表示。
[0003]
技术实现思路
将以简化的形式介绍一些概念,这些概念将在下面的详细描述中进一步描述。
技术实现思路
不旨在标识本文所述主题的关键特征或基本特征,也不旨在用于限制本文所述的主题的范围。
附图说明
[0004]图1示出了可以在其中实现本文所述主题的各种实现的计算机环境的框图;
[0005]图2示出了根据本文所述主题的实现的文档处理模块的框图;
[0006]图3示出了根据本文所述主题的一些实现从文档中提取信息的示例;
[0007]图4

图6示出了根据本文所述主题的实现的文档处理模块的一些示例的框图;以及
[0008]图7示出了根据本文所述主题的实现的过程的流程图。
[0009]在整个附图中,相同或相似的参考符号表示相同或相似的元件。
具体实施方式
[0010]现在将参考一些示例实现来描述本文描述的主题的原理。应当理解,描述这些实施方式仅仅是为了说明并帮助本领域技术人员更好地理解并从而实现本文所描述的主题,而不暗示对本文所公开的主题的范围的任何限制。
[0011]如本文所用,术语“包括”及其变体应理解为开放术语,意思是“包括但不限于”。术语“基于”应理解为“至少部分基于”。术语“实现”和“一个实现”应理解为“至少一个实现”。术语“另一个实现”应理解为“至少一个其他实现”。术语“第一”、“第二”等可指不同或相同的对象。其他定义,无论是明确的还是隐含的,可以包括如下。
[0012]如本文所使用的,“深度学习模型”是AI模型,也可以称为“学习模型”、“学习网
络”、“网络模型”或“模型”。这些术语在下文中可以互换使用。“神经网络”或“神经网络模型”是深度学习模型的示例。通过基于训练数据的模型的训练短语来确定深度学习模型的参数集。训练的深度学习模型使用训练的参数集将接收的输入映射到对应的输出。因此,深度学习模型的训练过程可以被认为是从训练数据学习输入和输出之间的映射或关联。
[0013]如上所述,为了理解文档,尤其是图像形式的文档,需要识别并提供文本进行处理。目前,数据是通过手动操作从文档中提取的,这很耗时且容易出错,同时需要手动定制或配置。每种类型文档的规则和工作流通常需要硬编码,并随着特定格式的更改或处理多种格式时进行更新。为了解决这些问题,文档AI模型和算法被设计用于自动分类、提取和结构化文档中的信息,从而加速自动化文档处理工作流。
[0014]大多数现有的文档AI模型和算法需要借助于诸如光学字符识别(OCR)的技术从文档图像中识别信息(更重要的是文本信息),然后通过利用各种NLP模型来探索文本信息的语义,纯粹从自然语言处理(NLP)角度来处理文本信息。然而,由于大多数NLP模型只关注文本级操作,并基于单个文本模式进行训练,因此结果可能不适合于文档图像特定的后续任务,例如文档图像分类、表单理解等。
[0015]根据本文描述的主题的实现,提出了一种用于文档(例如文档图像)中的文本处理的解决方案。在该解决方案中,从文档中确定包括一组文本元素的文本信息和文本元素的布局信息。布局信息例如通过文档内文本元素的相应位置来指示文档内的文本元素的空间布置。该组文本元素和布局信息共同用于生成文本元素的相应语义特征表示。
[0016]文档中相应文本元素(诸如单词或短语)的空间布置对文档中文本元素的语义有很大贡献。通过联合使用文本信息和布局信息,可以有效地将文本元素的丰富语义捕获到特征表示中。生成的特征表示在下游处理任务中使用可以利用丰富的语义提高任务的性能和准确性。
[0017]图1示出了在其中可以实现本文描述的主题的各种实现的计算设备100的框图。应当理解,如图1所示的计算设备100仅作为示例提供,而不暗示对本文所述主题的功能和实现范围的任何限制。
[0018]如图1所示,计算设备100是通用计算设备的形式。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150、以及一个或多个输出设备160。
[0019]在一些实现中,计算设备100可以被实现为各种用户终端或服务器中的任何一个。服务器可以是任何服务器、大型计算设备以及由各种服务提供商提供的任何其他设备。例如,用户终端可以是任何类型的移动终端、固定终端或便携式终端,包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、无线电广播接收器、电子书设备、游戏设备或包括这些设备的附件和外围设备的任何组合,或其任意组合。还可以设想,计算设备100可以支持用户的任何类型的接口(诸如“可穿戴”电路等)。
[0020]处理单元110可以是物理或虚拟处理器并且可以基于存储在存储器120中的程序执行各种进程。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备100的并行处理能力。处理单元110也可以称为中央处理器(CPU)、微处理器、控制器或
微控制器。
[0021]计算设备100通常包括各种计算机存储介质。计算机存储介质可以是计算设备100可访问的任何可用介质,包括但不限于易失性和非易失性介质,或可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如,寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其任何组合。存储设备130可以是任何可拆卸或不可拆卸介质,并且可以包括机器可读介质,诸如存储器、闪存驱动器、磁盘或任何其他介质,其可以用于存储信息和/或数据并且可以由计算设备100访问。
[0022]计算设备100还可以包括附加的可拆卸/不可拆卸存储介质、易失性/非易失性存储介质。尽管本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种电子设备,包括:处理单元;以及存储器,耦合到所述处理单元并且其上存储有指令,所述指令当由所述处理单元执行时,使所述设备执行动作,所述动作包括:确定文档中呈现的文本信息,所述文本信息包括多个文本元素;确定指示在所述文档内呈现的所述多个文本元素的空间布置的布局信息;以及至少部分地基于所述多个文本元素和所述布局信息来生成所述多个文本元素的相应语义特征表示。2.根据权利要求1所述的设备,其中所述布局信息指示以下至少一项:所述文档内的所述多个文本元素的相应位置,以及所述文档内的所述文本信息的定位范围。3.根据权利要求2所述的设备,其中所述文档包括图像,并且所述图像包括所述多个文本元素,并且其中所述布局信息包括所述多个文本元素的所述相应位置,并且确定所述布局信息包括:确定所述图像中包围所述多个文本元素的多个边界框;以及将所述图像中的所述多个边界框的相应位置确定为所述多个文本元素的所述相应位置。4.根据权利要求1所述的设备,其中所述动作还包括:确定指示以下至少一项的视觉信息:所述文档中呈现的所述多个文本元素的相应视觉外观,以及所述文档的整体视觉外观;以及其中生成所述语义特征表示还包括:还基于所述视觉信息生成所述语义特征表示。5.根据权利要求4所述的设备,其中所述视觉信息包括以下至少一项:所述多个文本元素的相应格式的信息,以及所述文档的格式的信息。6.根据权利要求4所述的设备,其中所述视觉信息指示所述相应视觉外观,并且确定所述视觉信息包括:提取呈现所述文档中的所述多个文本元素的多个图像块;以及生成表征所述多个图像块的视觉外观的多个视觉特征表示。7.根据权利要求1所述的设备,其中所述动作还包括:向解码器提供所述相应语义特征表示,所述解码器被配置为执行与所述文档相关的下游处理任务。8.根据权利要求7所述的设备,其中所述动作还包括:向所述解码器提供视觉信息,所述视觉信息指示以下至少一项:所述文档中呈现的所述多个文本元素的相应视觉外观,以及所述文档的整体视觉外观。9.根据权利要求1所述的设备,其中生成所述语义特征表示包括:通过将所述多个文本元素和所...

【专利技术属性】
技术研发人员:崔磊黄绍晗董力韦福如
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1