文档实体及关系抽取方法、装置及存储介质制造方法及图纸

技术编号:37641269 阅读:22 留言:0更新日期:2023-05-25 10:08
本申请提供一种文档实体及关系抽取方法、装置及存储介质,属于计算机视觉和自然语言处理技术领域,该方法包括:确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。本申请实施例提供的文档实体及关系抽取方法、装置及存储介质,基于图结构中顶点的视觉特征和边的视觉特征进行顶点分类和边分类,获得文档实体的布局关系、实体类别和实体间的语义关系,使得视觉富文档实体信息的提取更加全面和准确。确。确。

【技术实现步骤摘要】
文档实体及关系抽取方法、装置及存储介质


[0001]本申请涉及计算机视觉和自然语言处理
,尤其涉及一种文档实体及关系抽取方法、装置及存储介质。

技术介绍

[0002]在现实中通常存在视觉信息丰富的文档,即视觉富文档,比如购物发票、订单、报表等。这类文档中的主要信息不仅由文档中各个实体本身的语义决定,还与实体间关系有关。文档中的视觉信息和文本间的布局关系为了表达文档中的实体及其关系信息,通常具有一定的规律。
[0003]针对文档的信息提取,现有技术大多只关注了实体级别的信息提取,例如,多数方法将文档实体信息提取视作一个序列标记问题,并且采用命名实体识别方法提取文档中的信息。在这些类方法中,通常通过光学字符识别引擎获取文档文本后,将文本序列化,然后使用分类模型将每个文本分类为预定义的类别之一。但是序列化对于某些依赖于布局特征的文档来说,存在文档实体信息提取不全面、不准确的技术问题。

技术实现思路

[0004]本申请实施例提供一种文档实体及关系抽取方法、装置及存储介质,用以解决现有技术中视觉富文档的及关系抽取不全面、不准确的技术问题。
[0005]第一方面,本申请实施例提供一种文档实体及关系抽取方法,包括:确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。
[0006]在一些实施例中,基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的布局关系,包括:基于所述顶点的视觉特征和所述边的视觉特征利用图神经网络进行边分类,获得所述实体的布局关系。
[0007]在一些实施例中,基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的类别信息和所述实体之间的语义关系,包括:通过将所述顶点的视觉特征和所述顶点的语义特征进行拼接获得所述图结构的顶点特征;基于所述顶点特征和所述边的视觉特征利用图神经网络进行顶点分类,获得所述实体的类别信息,并基于所述顶点特征和所述边的视觉特征利用图神经网络进行边分类,获得所述实体之间的语义关系。
[0008]在一些实施例中,确定图结构的顶点的视觉特征,包括:对所述文档的文档图像的像素进行归一化处理,得到灰度图像;
基于所述灰度图像确定所述文档的图像特征;基于所述图像特征利用插值法确定图结构的顶点的视觉特征。
[0009]在一些实施例中,确定所述图结构的边的视觉特征,包括:对任意两个实体的外接框的中心点连线周围进行插值,获得所述边的视觉特征。
[0010]在一些实施例中,所述方法还包括:基于所述文档的序列化文本的语义特征利用多层感知机进行预测,获得所述文档中的实体;将属于同一实体的序列化文本的语义特征进行平均池化,获得所述顶点的语义特征。
[0011]在一些实施例中,所述方法还包括:基于预定义词表将所述文档的序列化文本进行分词和令牌化,获得令牌化的词;基于所述令牌化的词确定所述序列化文本的语义特征。
[0012]第二方面,本申请实施例提供一种文档实体及关系抽取装置,包括:第一确定模块,用于确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;第二确定模块,用于基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。
[0013]第三方面,本申请实施例提供一种电子设备,包括存储器,收发机,处理器;所述存储器用于存储计算机程序;所述收发机用于在所述处理器的控制下收发数据;所述处理器用于读取所述存储器中的计算机程序并执行如上所述第一方面所述的文档实体及关系抽取方法。
[0014]第四方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行如上所述第一方面所述的文档实体及关系抽取方法。
[0015]第五方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行如上所述第一方面所述的文档实体及关系抽取方法。
[0016]第六方面,本申请实施例还提供一种通信设备可读存储介质,所述通信设备可读存储介质存储有计算机程序,所述计算机程序用于使通信设备执行如上所述第一方面所述的文档实体及关系抽取方法。
[0017]第七方面,本申请实施例还提供一种芯片产品可读存储介质,所述芯片产品可读存储介质存储有计算机程序,所述计算机程序用于使芯片产品执行如上所述第一方面所述的文档实体及关系抽取方法。
[0018]本申请实施例提供的文档实体及关系抽取方法、装置及存储介质,通过构建文档实体的图结构,基于实体的视觉特征和实体间的边的视觉特征进行顶点分类和边分类,得到实体的布局关系、所述实体的类别信息和所述实体之间的语义关系,实现了文档实体中的布局信息和语义信息的提取,使得对文档实体信息的提取更加完整和准确。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本申请实施例提供的文档实体及关系抽取方法的流程示意图;图2是本申请实施例提供的一种文档实体及关系抽取方法的边视觉特征插值示意图;图3是本申请实施例提供的一种文档实体及关系抽取方法的系统流程图;图4是本申请实施例提供的一种文档实体及关系抽取装置的结构示意图;图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0021]文档信息提取一般是指从文档中提取预定义的结构化信息,对视觉富文档的信息提取往往涉及计算机视觉及自然语言处理相关技术。而现有技术中对于视觉富文档的信息提取通常只关注实体信息提取,一方面,由于忽略了布局关系,其实体信息提取不准确。另一方面,由于无法利用和提取实体间的关系,需要后续模块或者模型进行额外的关系提取。
[0022]基于上述技术问题,本申请实施例提出一种文档实体及关系抽取方法,从文档图像中提取视觉信息,从文本中解析语义,结合视觉特征及语义特征来确定目标实体的类别及其关系,提高了对实体信息提取的准确性,并减小对模块或模型设计的复杂度。
[0023]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档实体及关系抽取方法,其特征在于,包括:确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。2.根据权利要求1所述的文档实体及关系抽取方法,其特征在于,基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的布局关系,包括:基于所述顶点的视觉特征和所述边的视觉特征利用图神经网络进行边分类,获得所述实体的布局关系。3.根据权利要求1所述的文档实体及关系抽取方法,其特征在于,基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的类别信息和所述实体之间的语义关系,包括:通过将所述顶点的视觉特征和所述顶点的语义特征进行拼接获得所述图结构的顶点特征;基于所述顶点特征和所述边的视觉特征利用图神经网络进行顶点分类,获得所述实体的类别信息,并基于所述顶点特征和所述边的视觉特征利用图神经网络进行边分类,获得所述实体之间的语义关系。4.根据权利要求1所述的文档实体及关系抽取方法,其特征在于,确定图结构的顶点的视觉特征,包括:对所述文档的文档图像的像素进行归一化处理,得到灰度图像;基于所述灰度图像确定所述文档的图像特征;基于所述图像特征利用插值法确定图结构的顶点的视觉特征。5.根据权利要求1所述的文档实体及关系抽取方法,其特征在于,确定所述图结构的边的视觉特征,...

【专利技术属性】
技术研发人员:殷飞戴鹤森刘成林
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1