System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 信息处理方法、装置、电子设备和可读介质制造方法及图纸_技高网

信息处理方法、装置、电子设备和可读介质制造方法及图纸

技术编号:41123910 阅读:5 留言:0更新日期:2024-04-30 17:50
本申请提供一种信息处理方法、装置、电子设备和可读介质。该方法包括:获取包含待处理表格信息的待处理文档;对待处理文档中的待处理表格信息进行数据识别,得到待处理表格信息中的表格数据;从多个任务信息中获取表格数据对应的目标任务信息,其中,每个任务信息用于指示对待处理表格信息的处理结果和数据类型;将表格数据和目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于目标任务信息的目标处理结果,其中,预训练表格处理模型是基于多个任务信息进行训练得到的模型。该方法能够提高对表格数据中有效信息的提取能力以及表格数据分析结果的准确性。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种信息处理方法、装置、电子设备和可读介质


技术介绍

1、随着计算机技术的发展,各类问答系统、翻译系统、知识图谱等技术得到了广泛应用,其中,通过计算机来处理表格中的数据存在大量需求。对于表格数据,计算机会从给定的表格中根据用户的问题来提取出目标信息。因此,如何从表格中提取出有用信息的能力十分关键。

2、在相关技术中,计算机会将表格数据导入数据库,并且根据需要生成对应的数据库语言任务在数据库中执行,从而得到所需要的信息。

3、然而,在此类技术中,数据分析能力受限于数据库对于表格数据的处理能力和处理形式,对于表格数据处理的精细程度和灵活度不足,降低对表格数据中有效信息的提取能力,不利于表格数据分析结果的准确性。


技术实现思路

1、基于上述技术问题,本申请提供一种信息处理方法、装置、电子设备和可读介质,以提高对表格数据中有效信息的提取能力以及表格数据分析结果的准确性。

2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

3、根据本申请实施例的一个方面,提供一种信息处理方法,包括:

4、获取包含待处理表格信息的待处理文档;

5、对所述待处理文档中的待处理表格信息进行数据识别,得到所述待处理表格信息中的表格数据;

6、从多个任务信息中获取所述表格数据对应的目标任务信息,其中,每个任务信息用于指示对所述待处理表格信息的处理结果和数据类型;

7、将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果,其中,所述预训练表格处理模型是基于所述多个任务信息进行训练得到的模型。

8、在本申请的一些实施例中,基于以上技术方案,对所述待处理文档中的待处理表格信息进行数据识别,得到所述待处理表格信息中的表格数据,包括:

9、确定所述待处理文档中文档元素的数据类型,所述文档元素至少包含表格元素;

10、根据所述数据类型对应的数据处理策略,对所述待处理文档进行数据提取,得到所述待处理文档中文本块的字符内容和文本块坐标;

11、对所述待处理文档进行布局分析,得到各个文档元素的布局分析结果;

12、根据所述布局分析结果中表格元素的位置信息和所述文本块的文本块坐标,获取所述表格元素的字符内容和位置信息,作为所述待处理表格信息中的表格数据。

13、在本申请的一些实施例中,基于以上技术方案,根据所述布局分析结果中表格元素的位置信息和所述文本块的文本块坐标,获取所述表格元素的字符内容和位置信息,包括:

14、根据所述布局分析结果中表格元素的各个单元格的位置信息,确定文本块坐标与所述位置信息相对应的文本块;

15、根据所述各个单元格在所述待处理表格信息中的相对位置以及在所述待处理文档的位置,将所述单元格对应的文本块组合,得到所述表格元素的字符内容和位置信息。

16、在本申请的一些实施例中,基于以上技术方案,将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果,包括:

17、对于所述表格数据中的每个单元格,根据所述单元格在所述待处理表格信息中的相对位置,确定合并单元格;

18、根据所述表格数据的布局分析结果中表格的行列布局信息,确定所述表格数据中合并单元格对应的多个标准单元格;

19、根据将所述合并单元格中的字符内容分别复制到所述多个标准单元格中;

20、将所述表格数据中的所述合并单元格替换为对应的所述多个标准单元格替换,得到待输入信息;

21、将所述待输入信息和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果。

22、在本申请的一些实施例中,基于以上技术方案,所述方法还包括:

23、获取包含训练表格数据;

24、根据所述训练表格数据以及所述多个任务信息,确定每个任务信息对应的训练任务结果;

25、根据所述训练表格数据、所述多个任务信息以及对应的训练任务结果,对预训练模型进行训练,得到所述预训练表格处理模型。

26、在本申请的一些实施例中,基于以上技术方案,所述多个任务信息中包含图谱任务信息;所述根据所述训练表格数据以及所述多个任务信息,确定每个任务信息对应的训练任务结果,包括:

27、根据所述图谱任务信息,确定所述表格数据中的目标单元格;

28、获取所述目标单元格的字符内容、行标签、列标签、单元格类型和键值标签,作为所述目标单元格的描述信息;

29、将所述目标单元格的描述信息作为所述图谱任务信息的训练任务结果。

30、在本申请的一些实施例中,基于以上技术方案,所述将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果之后,所述方法还包括:

31、根据所述目标任务信息中的任务类型信息,获取所述目标处理结果中的指定数据,所述任务类型信息与所述目标处理结果所包含的数据和数据类型之间存在对应关系;

32、对所述指定数据进行数据格式转换,得到所述待处理表格信息的处理结果。

33、根据本申请实施例的一个方面,提供一种信息处理装置,包括:

34、文档获取模块,用于获取包含待处理表格信息的待处理文档;

35、数据识别模块,用于对所述待处理文档中的待处理表格信息进行数据识别,得到所述待处理表格信息中的表格数据;

36、任务获取模块,用于从多个任务信息中获取所述表格数据对应的目标任务信息,其中,每个任务信息用于指示对所述待处理表格信息的处理结果和数据类型;

37、数据提取模块,用于将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果,其中,所述预训练表格处理模型是基于所述多个任务信息进行训练得到的模型。

38、根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,该处理器配置为经由执行可执行指令来执行如以上技术方案中的信息处理方法。

39、根据本申请实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时实现如以上技术方案中的信息处理方法。

40、在本申请的实施例中,方案对待处理文档中的待处理表格信息进行数据识别,得到待处理表格信息中的表格数据,然后从多个任务信息中获取表格数据对应的目标任务信息,其中,每个任务信息用于指示对待处理表格信息的处理结果和数据类型,再将表格数据和目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于目标任务信息的目标处理结果本文档来自技高网...

【技术保护点】

1.一种信息处理方法,其特征在于,包括:

2.根据权利要求1所述的信息处理方法,其特征在于,对所述待处理文档中的待处理表格信息进行数据识别,得到所述待处理表格信息中的表格数据,包括:

3.根据权利要求2所述的信息处理方法,其特征在于,根据所述布局分析结果中表格元素的位置信息和所述文本块的文本块坐标,获取所述表格元素的字符内容和位置信息,包括:

4.根据权利要求3所述的信息处理方法,其特征在于,将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果,包括:

5.根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的信息处理方法,其特征在于,所述多个任务信息中包含图谱任务信息;根据所述训练表格数据以及所述多个任务信息,确定每个任务信息对应的训练任务结果,包括:

7.根据权利要求1所述的方法,其特征在于,将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果之后,所述方法还包括:

8.一种信息处理装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的信息处理方法。

...

【技术特征摘要】

1.一种信息处理方法,其特征在于,包括:

2.根据权利要求1所述的信息处理方法,其特征在于,对所述待处理文档中的待处理表格信息进行数据识别,得到所述待处理表格信息中的表格数据,包括:

3.根据权利要求2所述的信息处理方法,其特征在于,根据所述布局分析结果中表格元素的位置信息和所述文本块的文本块坐标,获取所述表格元素的字符内容和位置信息,包括:

4.根据权利要求3所述的信息处理方法,其特征在于,将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果,包括:

5.根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括...

【专利技术属性】
技术研发人员:范诗剑徐亮朱昱锦徐俞耀
申请(专利权)人:浙江清华长三角研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1