文档实体及关系抽取方法、装置及存储介质制造方法及图纸

技术编号：37641269 阅读：40 留言：0更新日期：2023-05-25 10:08

本申请提供一种文档实体及关系抽取方法、装置及存储介质，属于计算机视觉和自然语言处理技术领域，该方法包括：确定图结构的顶点的视觉特征和所述图结构的边的视觉特征；所述图结构以文档中的实体为顶点，以所述实体的外接框之间的连线为边；基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息；所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。本申请实施例提供的文档实体及关系抽取方法、装置及存储介质，基于图结构中顶点的视觉特征和边的视觉特征进行顶点分类和边分类，获得文档实体的布局关系、实体类别和实体间的语义关系，使得视觉富文档实体信息的提取更加全面和准确。确。确。

全部详细技术资料下载

【技术实现步骤摘要】
文档实体及关系抽取方法、装置及存储介质

[0001]本申请涉及计算机视觉和自然语言处理
，尤其涉及一种文档实体及关系抽取方法、装置及存储介质。

技术介绍

[0002]在现实中通常存在视觉信息丰富的文档，即视觉富文档，比如购物发票、订单、报表等。这类文档中的主要信息不仅由文档中各个实体本身的语义决定，还与实体间关系有关。文档中的视觉信息和文本间的布局关系为了表达文档中的实体及其关系信息，通常具有一定的规律。
[0003]针对文档的信息提取，现有技术大多只关注了实体级别的信息提取，例如，多数方法将文档实体信息提取视作一个序列标记问题，并且采用命名实体识别方法提取文档中的信息。在这些类方法中，通常通过光学字符识别引擎获取文档文本后，将文本序列化，然后使用分类模型将每个文本分类为预定义的类别之一。但是序列化对于某些依赖于布局特征的文档来说，存在文档实体信息提取不全面、不准确的技术问题。

技术实现思路

[0004]本申请实施例提供一种文档实体及关系抽取方法、装置及存储介质，用以解决现有技术中视觉富文档的及...

【技术保护点】

【技术特征摘要】
1.一种文档实体及关系抽取方法，其特征在于，包括：确定图结构的顶点的视觉特征和所述图结构的边的视觉特征；所述图结构以文档中的实体为顶点，以所述实体的外接框之间的连线为边；基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息；所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。2.根据权利要求1所述的文档实体及关系抽取方法，其特征在于，基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的布局关系，包括：基于所述顶点的视觉特征和所述边的视觉特征利用图神经网络进行边分类，获得所述实体的布局关系。3.根据权利要求1所述的文档实体及关系抽取方法，其特征在于，基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的类别信息和所述实体之间的语义关系，包括：通过将所述顶点的视觉特征和所述顶点的语义特征进行拼接获得所述图结构的顶点特征；基于所述顶点特征和所述边的视觉特征利用图神经网络进行顶点分类，获得所述实体的类别信息，并基于所述顶点特征和所述边的视觉特征利用图神经网络进行边分类，获得所述实体之间的语义关系。4.根据权利要求1所述的文档实体及关系抽取方法，其特征在于，确定图结构的顶点的视觉特征，包括：对所述文档的文档图像的像素进行归一化处理，得到灰度图像；基于所述灰度图像确定所述文档的图像特征；基于所述图像特征利用插值法确定图结构的顶点的视觉特征。5.根据权利要求1所述的文档实体及关系抽取方法，其特征在于，确定所述图结构的边的视觉特征，...

【专利技术属性】
技术研发人员：殷飞，戴鹤森，刘成林，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人