System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本结构化处理方法、装置、可读存储介质及终端设备制造方法及图纸_技高网

文本结构化处理方法、装置、可读存储介质及终端设备制造方法及图纸

技术编号:40842500 阅读:7 留言:0更新日期:2024-04-01 15:09
本申请属于文本处理技术领域,尤其涉及一种文本结构化处理方法、装置、计算机可读存储介质及终端设备。所述方法包括本申请实施例获取待处理的目标文本,并提取所述目标文件的目标文本信息;利用预设的各个文本模版,对所述目标文本信息进行模版匹配;若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本。通过上述方法,可以在匹配到与目标文本信息对应的目标匹配模版时,按照目标匹配模版对目标文本进行文本结构化处理,据此,可以高效准确地对目标文本进行文本结构化处理,并有助于提升用户体验。

【技术实现步骤摘要】

本申请属于文本处理,尤其涉及一种文本结构化处理方法、装置、计算机可读存储介质及终端设备。


技术介绍

1、文本结构化是指将无结构或半结构的文本转换为具有明确定义的结构和语义的过程,使其更易于理解、分析和利用。然而,现有的文本结构化处理方法在处理非表格类型的文本数据时,通常会使用正则表达式进行配置,但此方法的产出效率和精准度均不高,因此,亟待一种高效准确的文本结构化方法。


技术实现思路

1、有鉴于此,本申请实施例提供了一种文本结构化处理方法、装置、计算机可读存储介质及终端设备,以解决现有技术中的文本结构化处理方法的产出效率和精准度均不高的问题。

2、本申请实施例的第一方面提供了一种文本结构化处理方法,可以包括:

3、获取待处理的目标文本,并提取所述目标文本的目标文本信息;

4、利用预设的各个文本模版,对所述目标文本信息进行模版匹配;

5、若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本。

6、在第一方面的一种具体实现方式中,所述目标文本信息可以包括所述目标文本的各个文本坐标和各个文本标题;

7、所述利用预设的各个文本模版,对所述目标文本信息进行模版匹配,可以包括:

8、获取目标待匹配模版的各个文本坐标和各个文本标题;其中,所述目标待匹配模版为各个文本模版中任意一个未匹配的文本模版;

9、若所述目标文本的各个文本坐标与所述目标待匹配模版的各个文本坐标相同,且所述目标文本的各个文本标题与所述目标待匹配模版的各个文本标题相同,则将所述目标待匹配模版确定为所述目标匹配模版;

10、若所述目标文本的各个文本坐标与所述目标待匹配模版的各个文本坐标不相同,或所述目标文本的各个文本标题与所述目标待匹配模版的各个文本标题不相同,则返回执行所述获取目标待匹配模版的各个文本坐标和各个文本标题的步骤及其后续步骤。

11、在第一方面的一种具体实现方式中,所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本,可以包括:

12、获取所述目标匹配模版的各个行间距和各个格式转换规则;

13、根据所述目标匹配模版的各个文本坐标和各个文本标题,对所述目标文本进行数据分列,得到各个列文本;

14、根据所述目标匹配模版的行间距,对目标列文本进行同行文本合并,得到所述目标列文本的各个同行文本;其中,所述目标列文本为各个列文本中任意一个未进行同行文本合并的列文本;

15、根据所述目标文本的各个文本坐标和各个列文本,对所述目标文本进行数据分行,得到各个行文本;

16、根据所述目标匹配模版的各个格式转换规则,对所述目标文本进行格式转换,得到所述目标结构化文本。

17、在第一方面的一种具体实现方式中,在所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本之后,还可以包括:

18、对所述目标结构化文本进行数据校验,得到与所述目标结构化文本对应的数据校验结果。

19、在第一方面的一种具体实现方式中,在所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本之后,还可以包括:

20、根据预设的标题字段映射关系,对所述目标结构化文本进行映射;其中,所述标题字段映射关系为所述目标结构化文本的文本标题与映射后字段之间的映射关系。

21、在第一方面的一种具体实现方式中,所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本之后,还可以包括:

22、按照预设的显示方式对所述目标结构化文本进行文本显示。

23、在第一方面的一种具体实现方式中,还可以包括:

24、若未匹配到与所述目标文本信息对应的目标匹配模版,则按照预设的异常处理方式进行异常处理。

25、本申请实施例的第二方面提供了一种文本结构化处理装置,可以包括:

26、目标文本信息提取模块,用于获取待处理的目标文本,并提取所述目标文本的目标文本信息;

27、文本模版匹配模块,用于利用预设的各个文本模版,对所述目标文本信息进行模版匹配;

28、文本结构化处理模块,用于若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本。

29、在第二方面的一种具体实现方式中,所述目标文本信息可以包括所述目标文本的各个文本坐标和各个文本标题;

30、所述文本模版匹配模块可以包括:

31、坐标与标题获取子模块,用于获取目标待匹配模版的各个文本坐标和各个文本标题;其中,所述目标待匹配模版为各个文本模版中任意一个未匹配的文本模版;

32、目标匹配模版确定子模块,用于若所述目标文本的各个文本坐标与所述目标待匹配模版的各个文本坐标相同,且所述目标文本的各个文本标题与所述目标待匹配模版的各个文本标题相同,则将所述目标待匹配模版确定为所述目标匹配模版;

33、返回执行子模块,用于若所述目标文本的各个文本坐标与所述目标待匹配模版的各个文本坐标不相同,或所述目标文本的各个文本标题与所述目标待匹配模版的各个文本标题不相同,则返回执行所述获取目标待匹配模版的各个文本坐标和各个文本标题的步骤及其后续步骤。

34、在第二方面的一种具体实现方式中,所述文本结构化处理模块可以包括:

35、行间距和规则子模块,用于获取所述目标匹配模版的各个行间距和各个格式转换规则;

36、数据分列子模块,用于根据所述目标匹配模版的各个文本坐标和各个文本标题,对所述目标文本进行数据分列,得到各个列文本;

37、同行文本合并子模块,用于根据所述目标匹配模版的行间距,对目标列文本进行同行文本合并,得到所述目标列文本的各个同行文本;其中,所述目标列文本为各个列文本中任意一个未进行同行文本合并的列文本;

38、数据分行子模块,用于根据所述目标文本的各个文本坐标和各个列文本,对所述目标文本进行数据分行,得到各个行文本;

39、格式转换子模块,用于根据所述目标匹配模版的各个格式转换规则,对所述目标文本进行格式转换,得到所述目标结构化文本。

40、在第二方面的一种具体实现方式中,所述文本结构化处理装置还可以包括:

41、数据校验模块,用于对所述目标结构化文本进行数据校验,得到与所述目标结构化文本对应的数据校验结果。

42、在第二方面的一种具体实现方式中,所述文本结构化处理装置还可以包括:

43、文本映射本文档来自技高网...

【技术保护点】

1.一种文本结构化处理方法,其特征在于,包括:

2.根据权利要求1所述的文本结构化处理方法,其特征在于,所述目标文本信息包括所述目标文本的各个文本坐标和各个文本标题;

3.根据权利要求2所述的文本结构化处理方法,其特征在于,所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本,包括:

4.根据权利要求1所述的文本结构化处理方法,其特征在于,在所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本之后,还包括:

5.根据权利要求1所述的文本结构化处理方法,其特征在于,在所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本之后,还包括:

6.根据权利要求1所述的文本结构化处理方法,其特征在于,所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本之后,还包括:

7.根据权利要求1至6中任一项所述的文本结构化处理方法,其特征在于,还包括:

8.一种文本结构化处理装置,其特征在于,包括:

9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本结构化处理方法的步骤。

10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文本结构化处理方法的步骤。

...

【技术特征摘要】

1.一种文本结构化处理方法,其特征在于,包括:

2.根据权利要求1所述的文本结构化处理方法,其特征在于,所述目标文本信息包括所述目标文本的各个文本坐标和各个文本标题;

3.根据权利要求2所述的文本结构化处理方法,其特征在于,所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本,包括:

4.根据权利要求1所述的文本结构化处理方法,其特征在于,在所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标结构化文本之后,还包括:

5.根据权利要求1所述的文本结构化处理方法,其特征在于,在所述若匹配到与所述目标文本信息对应的目标匹配模版,则按照所述目标匹配模版对所述目标文本进行文本结构化处理,得到目标...

【专利技术属性】
技术研发人员:谢安庆颜艳桃王飞虎周泽赵占胜
申请(专利权)人:中和农信农业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1