一种文档信息抽取方法、装置、设备及其存储介质制造方法及图纸

技术编号:42705694 阅读:25 留言:0更新日期:2024-09-13 11:59
本申请属于信息提取技术领域,涉及一种文档信息抽取方法、装置、设备及其存储介质,包括对目标文档进行节点信息抽取和文档结构解析;对所有节点信息进行序列化处理;对目标序列进行特征提取;根据所有节点信息的特征向量表示,构建图节点表示;将所有图节点表示输入到预设的文档图重建模型,进行文档图重构;将重构文档图输入到预设解码模型,进行解码,完成对目标文档中文档信息的抽取。采用对目标文档先编码、由文档节点构建图节点,之后再解码获得文档信息的方式,实质上采用了自监督学习方式进行文档信息抽取,无需标注,节省了标注消耗,同时,节省了大量算力资源,实现了快速准确且自动化的对文档信息进行抽取。

【技术实现步骤摘要】

本申请涉及信息提取,尤其涉及一种文档信息抽取方法、装置、设备及其存储介质


技术介绍

1、随着信息化、数字化发展,文档、图像等内容的结构化分析和内容提取已成为各个行业数字化转型的关键部分,而且,自动、准确、快速的信息处理是提高生产率的关键,使用人工方法对这些文档进行处理具有较大的局限性,如耗时高、劳动密集型高,精度低,可重复性低。

2、随着人工智能技术的发展,使用机器学习辅助信息处理越来越常见。目前,主要有基于gcn图神经网络架构,进行图重构,但是,现有的图重构方式主要是根据全连接图、距离采样等方法进行边定义。之后,再根据边定义结果和节点进行图重构。但往往会缺失实体节点对在原文档中的语义特征、图像特征融合,在边特征定义时会缺失部分原始文本、图像的信息,而且采用全连接图和距离采样法需要消耗大量算力资源,不利于快速准确的对文档信息进行抽取。


技术实现思路

1、本申请实施例的目的在于提出一种文档信息抽取方法、装置、设备及其存储介质,以解决现有技术采用全连接图和距离采样法需要消耗大量算力资源,不利于快速准本文档来自技高网...

【技术保护点】

1.一种文档信息抽取方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的文档信息抽取方法,其特征在于,所述对目标文档进行节点信息抽取和文档结构解析,获得节点信息和文档结构的步骤,具体包括:

3.根据权利要求2所述的文档信息抽取方法,其特征在于,所述根据所有节点信息的特征向量表示和所述文档结构,构建所述目标文档对应的文档图以及所有节点信息在所述文档图中分别对应的图节点表示的步骤,具体包括:

4.根据权利要求3所述的文档信息抽取方法,其特征在于,所述基于预设方位信息识别策略、所有节点信息分别所处的长方框体,以及所有长方框体分别在所述二维虚拟坐标系中的...

【技术特征摘要】

1.一种文档信息抽取方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的文档信息抽取方法,其特征在于,所述对目标文档进行节点信息抽取和文档结构解析,获得节点信息和文档结构的步骤,具体包括:

3.根据权利要求2所述的文档信息抽取方法,其特征在于,所述根据所有节点信息的特征向量表示和所述文档结构,构建所述目标文档对应的文档图以及所有节点信息在所述文档图中分别对应的图节点表示的步骤,具体包括:

4.根据权利要求3所述的文档信息抽取方法,其特征在于,所述基于预设方位信息识别策略、所有节点信息分别所处的长方框体,以及所有长方框体分别在所述二维虚拟坐标系中的坐标信息识别任意两两长方框体之间的方位信息的步骤,具体包括:

5.根据权利要求4所述的文档信息抽取方法,其特征在于,所述根据所述方向参考节点对应长方框体、所述方向预测节点对应长方框体,确定出所述方向预测节点相对于所述方向参考节点所处的区...

【专利技术属性】
技术研发人员:毛景羡步允泽梁舒朱文彩
申请(专利权)人:湖南九立供应链有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1