信息处理方法、装置、设备和票据处理方法制造方法及图纸

技术编号:33992368 阅读:30 留言:0更新日期:2022-07-02 10:02
本申请公开了一种信息处理方法,包括:获得包含布局信息的目标文本,所述布局信息包括一个或多个单元格;根据所述单元格中的坐标信息和文本信息,获得所述坐标信息对应的向量特征信息和所述文本信息对应的向量特征信息;将所述坐标信息对应的向量特征信息、所述文本信息对应的向量特征信息进行编码,得到编码后的单元格的向量表示;根据所述单元格的向量表示确定所述单元格的键向量表示和值向量表示;根据所述单元格的键向量表示和值向量表示,确定所述布局信息中的第一单元格与所述布局信息中的第二单元格之间的修饰关系。采用上述方法,以解决现有技术存在的在从包含布局信息的文本抽取出信息的方法不能在不同领域进行迁移的问题。移的问题。移的问题。

【技术实现步骤摘要】
信息处理方法、装置、设备和票据处理方法


[0001]本申请涉及计算机
,具体涉及一种信息处理方法、装置、电子设备及存储设备,本申请还涉及一种票据处理方法。

技术介绍

[0002]近年来,越来越多的工作探索如何从包含图/表结构的文本,例如,从增值税发票中抽取信息消费项目、金额等信息,前人工作大多使用序列标注的方式来抽图/表结构的文本中的关键信息,这种方式依赖于预定义的标签类型,在不同领域迁移时,由于标签体系的差异,迁移能力较差。
[0003]现有技术下,在依存句法分析任务中,使用双仿射机制来计算句子中词语之间的依存弧分数,取得了较大的提升。但是,依存句法分析任务是基于纯文本展开的,无法适用于包含图/表结构的文本。
[0004]如何从包含图/表结构的文本抽取出信息并更好的在不同领域进行迁移是亟待解决的技术问题。

技术实现思路

[0005]本申请提供一种信息处理方法、装置、电子设备及存储设备,以解决现有技术存在的在从包含布局信息的文本抽取出信息的方法不能在不同领域进行迁移的问题。
[0006]本申请提供一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:获得包含布局信息的目标文本,所述布局信息包括一个或多个单元格;根据所述单元格中的坐标信息和文本信息,获得所述坐标信息对应的向量特征信息和所述文本信息对应的向量特征信息;将所述坐标信息对应的向量特征信息、所述文本信息对应的向量特征信息进行编码,得到编码后的单元格的向量表示;根据所述单元格的向量表示确定所述单元格的键向量表示和值向量表示;根据所述单元格的键向量表示和值向量表示,确定所述布局信息中的第一单元格与所述布局信息中的第二单元格之间的修饰关系。2.根据权利要求1所述的方法,其特征在于,所述布局信息包括图结构,和/或,表结构。3.根据权利要求1所述的方法,其特征在于,还包括:获得单元格的标签向量表示;相应的,所述根据所述单元格的向量表示确定所述单元格的键向量表示和值向量表示,包括:根据所述单元格的向量表示和所述单元格的标签表示确定所述单元格的键向量表示和值向量表示。4.根据权利要求3所述的方法,其特征在于,所述获得单元格的标签向量表示,包括:为所述单元格标注出表头与表体的指向关系,以及,单元格对应的键值对的修饰关系;根据所述指向关系信息和所述修饰关系,得到单元格的标签向量表示。5.根据权利要求1所述的方法,其特征在于,所述根据所述单元格的键向量表示和值向量表示确定所述布局信息中的第一单元格与所述布局信息中的第二单元格之间的修饰关系,包括:根据所述单元格的键向量表示和值向量表示,计算第一单元格与第二单元格之间的第一分数;根据坐标信息计算第一单元格与第二单元格之间的关系紧密度的第二分数;根据所述第一分数和所述第二分数,得到第一单元格与第二单元格之间的修饰关系。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一分数和所述第二分数,得到第一单元格与第二单元格之间的修饰关系,包括:将所述第一分数和所述第二分数相加,得到修饰关系得分。7.根据权利要求5所述的方法,其特征在于,所述根据坐标信息计算第一单元格与第二单元格之间的关系紧密度的第二分数,包括:根据坐标信息计算第一单元格与第二单元格之间的横坐标位置差和纵坐标位置差;根据所述横坐标位置差和所述纵坐标位置差,确定第一单元格与第二单元格之间的关系紧密度的第二分数。8.一种信息处理装置,其特征在于,包括:目标文本获得单元,用于获得包含布局信息的目标文本,所述布局信息包括一个或多个单元格;向量特征信息获得单元,用于根据所述单元格中的坐标信息和文本信息,获得所述坐标信息对应的向量特征信息和所述文本信息...

【专利技术属性】
技术研发人员:张月王睿章波
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1