System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种识别金融文档的方法、装置、设备及存储介质制造方法及图纸_技高网

一种识别金融文档的方法、装置、设备及存储介质制造方法及图纸

技术编号:40810275 阅读:2 留言:0更新日期:2024-03-28 19:32
本发明专利技术公开了一种识别金融文档的方法、装置、设备及存储介质,以解决现有技术中,利用业务模型对金融文档进行识别的准确度,依赖于算法工程师对模型参数进行准确的训练的问题。该方法包括:将文档数据集输入初始模型,得出文档识别信息,文档数据集包括用于训练初始模型的金融文本数据;标记出金融文本数据中,在目标业务场景下需要识别的字段,作为文档配置字段;生成文档配置字段对应的临时变量;通过临时变量,和临时变量对应的文档配置字段,生成金融文档在目标业务场景下的算法误差数据;利用算法误差数据,对文档识别信息进行调整,得出目标业务场景下金融文档的目标识别信息。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,尤其涉及一种识别金融文档的方法、装置、设备及存储介质


技术介绍

1、随着人工智能热度的攀升,各种大模型竞相涌现,各种不同的金融系统纷纷利用大模型对金融图像、金融文档等资源数据进行处理。但由于目前模型训练的学习成本较高,因此,大多数系统都是由算法工程师对初始模型进行训练、调整,进而得出符合终端用户使用的业务模型,利用业务模型对金融文档进行识别。但这种情况下,由于必须由算法工程师针对不同的金融业务对业务模型进行不同调整、订制,才能准确地对不同的金融文档进行识别,这不仅提高了人力成本,也降低了业务系统的效率。另外,由于算法工程师无法如同不同终端用户一样了解不同的金融业务场景,因此由算法工程师订制出的业务模型,往往在很多识别的细节上无法符合终端用户或业务场景的需求。

2、针对上述问题,现有技术中,一般通过算法融合或在后期由算法工程师对算法、模型参数进行调整。其中,采用算法融合的方式,由于过于依赖算法融合来解决精度问题,在业务模型迭代时,由于无法更近一步适配,因此业务模型的识别结果并不稳定,无法保证模型识别质量;而在后期由算法工程师对算法、模型的参数进行调整这一方式,则过于依赖算法工程师,终端用户依然无法自行依据实际业务场景对算法或模型进行调整,不仅使得最终模型的识别结果存在误差,而且耗费了大量人力成本。


技术实现思路

1、本专利技术实施例提供一种识别金融文档的方法、装置、设备及存储介质,以解决现有技术中,利用业务模型对金融文档进行识别的准确度,依赖于算法工程师对模型参数进行准确的训练的问题。

2、本专利技术第一方面,提供了一种识别金融文档方法,包括:

3、将文档数据集输入初始模型,得出文档识别信息,所述文档数据集包括用于训练所述初始模型的金融文本数据;

4、标记出所述金融文本数据中,在目标业务场景下需要识别的字段,作为文档配置字段;

5、生成所述文档配置字段对应的临时变量;

6、通过所述临时变量,和所述临时变量对应的所述文档配置字段,生成所述金融文档在所述目标业务场景下的算法误差数据;

7、利用所述算法误差数据,对所述文档识别信息进行调整,得出所述目标业务场景下所述金融文档的目标识别信息。

8、在一种可能的设计中,所述通过所述临时变量,和所述临时变量对应的所述文档配置字段,生成所述金融文档在目标业务场景下的算法误差数据,包括:

9、筛选出所述目标业务场景需要的所述文档配置字段,得到所述目标业务场景的字段配置组合;

10、通过所述字段配置组合,和所述文档配置字段对应的所述临时变量,得出临时变量组;

11、通过所述临时变量组,和所述临时变量对应的所述文档配置字段,生成所述金融文档在目标业务场景下的算法误差数据。

12、在一种可能的设计中,所述筛选出所述目标业务场景需要的所述文档配置字段,得到所述目标业务场景的字段配置组合,包括:

13、筛选出所述目标业务场景需要的所述文档配置字段,得出多个目标配置字段;

14、对所述多个目标配置字段的排序进行调整,得到所述目标业务场景的所述字段配置组合。

15、在一种可能的设计中,所述对所述多个目标配置字段的排序进行调整,得到所述目标业务场景的所述字段配置组合,包括:

16、获取所述目标配置字段的条件判断配置;

17、生成符合所述条件判断配置的条件分支信息;

18、通过所述条件分支信息,对所述多个目标配置字段进行分支划分,得出包含所述多个目标配置字段的不同分支对象;

19、调整每个所述分支对象中的目标配置字段的顺序,得出所述目标业务场景的所述字段配置组合。

20、在一种可能的设计中,所述标记出所述金融文本数据中,在目标业务场景下需要识别的字段,作为文档配置字段,包括:

21、获取所述目标业务场景对应的字段筛选的正则表达式;

22、通过所述正则表达式,标记出所述金融文本数据中需要识别的初始配置字段;

23、获取所述目标业务场景对应的字段处理信息,所述字段处理信息包括对初始配置字段进行截取、替换、删除和抽取的配置信息;

24、通过所述字段处理信息,对所述初始配置字段进行处理,得出文档配置字段。

25、在一种可能的设计中,所述生成所述金融文档在所述目标业务场景下的算法误差数据,包括:

26、生成所述目标业务场景对应的变量配置画布;

27、从所述变量配置画布中,动态获取所述临时变量,和所述临时变量与所述文档配置字段的对应关系;

28、通过所述临时变量,和所述临时变量与所述文档配置字段的对应关系,得出所述金融文档在所述目标业务场景下的算法误差数据。

29、在一种可能的设计中,所述从所述变量配置画布中,动态获取所述临时变量,和所述临时变量与所述文档配置字段的对应关系,包括:

30、动态获取用户在所述变量配置画布中的所有操作;

31、在所述所有操作中,筛选出与所述临时变量和所述文档配置字段有关联的操作,作为有效操作;

32、通过所述有效操作,得出所述临时变量,和所述临时变量与所述文档配置字段的对应关系。

33、第二方面,提供了一种识别金融文档装置,包括:

34、输入模块,用于将文档数据集输入初始模型,得出文档识别信息,所述文档数据集包括用于训练所述初始模型的金融文本数据;

35、标记模块,用于标记出所述金融文本数据中,在目标业务场景下需要识别的字段,作为文档配置字段;

36、生成模块,用于生成所述文档配置字段对应的临时变量;

37、保存模块,用于通过所述临时变量,和所述临时变量对应的所述文档配置字段,生成所述金融文档在所述目标业务场景下的算法误差数据;

38、调整模块,用于利用所述算法误差数据,对所述文档识别信息进行调整,得出所述目标业务场景下所述金融文档的目标识别信息。

39、第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述识别金融文档方法的步骤。

40、第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述识别金融文档方法的步骤。

41、综上,由于通过对初始模型得出的初始信息(也就是文档识别信息)存在着一定误差,这种误差影响了最终识别信息的准确度,因此,上述一种识别金融文档的方法、装置、设备及存储介质实质上是一种对文档识别信息中的误差进行校准的方式,也就是对文档识别信息进行调整,而算法误差数据是在目标业务场景中对文档识别信息进行校准的规则,从而得出目标业务场景下金融文档准确的识别结果,也就是目标识别信息。该方法无需由算法工程师依据不同的目标本文档来自技高网...

【技术保护点】

1.一种识别金融文档的方法,应用于服务端,其特征在于,包括:

2.如权利要求1所述识别金融文档的方法,其特征在于,所述通过所述临时变量,和所述临时变量对应的所述文档配置字段,生成所述金融文档在目标业务场景下的算法误差数据,包括:

3.如权利要求2所述识别金融文档的方法,其特征在于,所述筛选出所述目标业务场景需要的所述文档配置字段,得到所述目标业务场景的字段配置组合,包括:

4.如权利要求3所述识别金融文档的方法,其特征在于,所述对所述多个目标配置字段的排序进行调整,得到所述目标业务场景的所述字段配置组合,包括:

5.如权利要求1所述识别金融文档的方法,其特征在于,所述标记出所述金融文本数据中,在目标业务场景下需要识别的字段,作为文档配置字段,包括:

6.如权利要求1-4任一项所述识别金融文档的方法,其特征在于,所述生成所述金融文档在所述目标业务场景下的算法误差数据,包括:

7.如权利要求6所述识别金融文档的方法,其特征在于,所述从所述变量配置画布中,动态获取所述临时变量,和所述临时变量与所述文档配置字段的对应关系,包括:

8.一种识别金融文档的装置,其特征在于,包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述识别金融文档的方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述识别金融文档的方法的步骤。

...

【技术特征摘要】

1.一种识别金融文档的方法,应用于服务端,其特征在于,包括:

2.如权利要求1所述识别金融文档的方法,其特征在于,所述通过所述临时变量,和所述临时变量对应的所述文档配置字段,生成所述金融文档在目标业务场景下的算法误差数据,包括:

3.如权利要求2所述识别金融文档的方法,其特征在于,所述筛选出所述目标业务场景需要的所述文档配置字段,得到所述目标业务场景的字段配置组合,包括:

4.如权利要求3所述识别金融文档的方法,其特征在于,所述对所述多个目标配置字段的排序进行调整,得到所述目标业务场景的所述字段配置组合,包括:

5.如权利要求1所述识别金融文档的方法,其特征在于,所述标记出所述金融文本数据中,在目标业务场景下需要识别的字段,作为文档配置字段,包括:

6.如权利...

【专利技术属性】
技术研发人员:胡明波
申请(专利权)人:深圳前海环融联易信息科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1