文档的信息抽取方法、系统、电子设备和存储介质技术方案

技术编号:40428310 阅读:21 留言:0更新日期:2024-02-20 22:49
本申请公开了一种文档的信息抽取方法、系统、电子设备和存储介质,涉及大模型技术、文档处理领域。其中,该方法包括:获取文档,其中,文档包含多个语义实体;基于语义实体的语义信息和语义实体之间的结构关系,构建语义实体的目标实体特征;基于目标实体特征对文档进行信息抽取,得到文档的信息抽取结果。本申请解决了相关技术中对文档的信息抽取效果差的技术问题。

【技术实现步骤摘要】

本申请涉及大模型技术、文档处理领域,具体而言,涉及一种文档的信息抽取方法、系统、电子设备和存储介质


技术介绍

1、目前,企业数据大多以视觉文档的形式存在,例如以文本、图片、扫描件、电子表格、在线文档、邮件等形式,但是这些形式的文档通常难以流通和处理,大部分企业对视觉文档进行处理的方式是采用图神经网络,从视觉文档中抽取出较为关键的结构信息,然后再对该结构信息进行处理,以提高对视觉文档进行处理的效率。但是图神经网络大多是以nlp模型(neuro-linguistic programming,逻辑思维层次模型)为基座进行训练的,对视觉文档中存在的结构化知识的捕获能力较弱,无法预测长距离的语义实体之间的依赖关系,对视觉文档进行信息抽取的效果较差。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种文档的信息抽取方法、系统、电子设备和存储介质,以至少解决相关技术中对文档的信息抽取效果差的技术问题。

2、根据本申请实施例的一个方面,提供了一种文档的信息抽取本文档来自技高网...

【技术保护点】

1.一种文档的信息抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述语义实体的语义信息和所述语义实体之间的结构关系,构建所述语义实体的目标实体特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述文档解析模型包括:特征提取组件、关系生成组件和信息挖掘组件,利用文档处理模型基于所述语义信息和所述结构关系,构建所述目标实体特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述特征提取组件包括:预训练文档模型和两个不同的线性层,利用所述特征提取组件对所述语义实体进行特征提取,得到所述语义实体的初始实体特征,包括:...

【技术特征摘要】

1.一种文档的信息抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述语义实体的语义信息和所述语义实体之间的结构关系,构建所述语义实体的目标实体特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述文档解析模型包括:特征提取组件、关系生成组件和信息挖掘组件,利用文档处理模型基于所述语义信息和所述结构关系,构建所述目标实体特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述特征提取组件包括:预训练文档模型和两个不同的线性层,利用所述特征提取组件对所述语义实体进行特征提取,得到所述语义实体的初始实体特征,包括:

5.根据权利要求3所述的方法,其特征在于,所述关系生成组件包括:关系确定模块和关系生成模块,利用所述关系生成组件对所述初始实体特征进行映射,得到多个所述语义实体的关系特征,包括:

6.根据权利要求3所述的方法,其特征在于,所述信息挖掘组件包括:局部注意力层、全局交互层、以及与所述局部注意力层和所述全局交互层连接的池化层,利用所述信息挖掘组件对所述关系特征和所述...

【专利技术属性】
技术研发人员:陈湘楠肖谦李俊成董铎林君刘晓钟汤斯亮
申请(专利权)人:杭州阿里云飞天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1