【技术实现步骤摘要】
本申请涉及大模型技术、文档处理领域,具体而言,涉及一种文档的信息抽取方法、系统、电子设备和存储介质。
技术介绍
1、目前,企业数据大多以视觉文档的形式存在,例如以文本、图片、扫描件、电子表格、在线文档、邮件等形式,但是这些形式的文档通常难以流通和处理,大部分企业对视觉文档进行处理的方式是采用图神经网络,从视觉文档中抽取出较为关键的结构信息,然后再对该结构信息进行处理,以提高对视觉文档进行处理的效率。但是图神经网络大多是以nlp模型(neuro-linguistic programming,逻辑思维层次模型)为基座进行训练的,对视觉文档中存在的结构化知识的捕获能力较弱,无法预测长距离的语义实体之间的依赖关系,对视觉文档进行信息抽取的效果较差。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种文档的信息抽取方法、系统、电子设备和存储介质,以至少解决相关技术中对文档的信息抽取效果差的技术问题。
2、根据本申请实施例的一个方面,提供
...【技术保护点】
1.一种文档的信息抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述语义实体的语义信息和所述语义实体之间的结构关系,构建所述语义实体的目标实体特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述文档解析模型包括:特征提取组件、关系生成组件和信息挖掘组件,利用文档处理模型基于所述语义信息和所述结构关系,构建所述目标实体特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述特征提取组件包括:预训练文档模型和两个不同的线性层,利用所述特征提取组件对所述语义实体进行特征提取,得到所述语义实体的初始
...【技术特征摘要】
1.一种文档的信息抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述语义实体的语义信息和所述语义实体之间的结构关系,构建所述语义实体的目标实体特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述文档解析模型包括:特征提取组件、关系生成组件和信息挖掘组件,利用文档处理模型基于所述语义信息和所述结构关系,构建所述目标实体特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述特征提取组件包括:预训练文档模型和两个不同的线性层,利用所述特征提取组件对所述语义实体进行特征提取,得到所述语义实体的初始实体特征,包括:
5.根据权利要求3所述的方法,其特征在于,所述关系生成组件包括:关系确定模块和关系生成模块,利用所述关系生成组件对所述初始实体特征进行映射,得到多个所述语义实体的关系特征,包括:
6.根据权利要求3所述的方法,其特征在于,所述信息挖掘组件包括:局部注意力层、全局交互层、以及与所述局部注意力层和所述全局交互层连接的池化层,利用所述信息挖掘组件对所述关系特征和所述...
【专利技术属性】
技术研发人员:陈湘楠,肖谦,李俊成,董铎,林君,刘晓钟,汤斯亮,
申请(专利权)人:杭州阿里云飞天信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。