一种单据图像的处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36927583 阅读:12 留言:0更新日期:2023-03-22 18:50
本申请公开一种单据图像的处理方法、装置、电子设备及存储介质,属于图像处理技术领域,该方法包括:利用预先训练的至少两个分类模型,分别对获取的信用证交单业务中的单据图像进行单据类别识别,基于这至少两个分类模型的识别结果,确定单据图像的单据类别,若单据类别是信用证报文,则利用多条正则语句对单据图像中的文本内容进行匹配,其中,多条正则语句是根据每类信用证报文在每页报文上的关键语句预先确定的,进而基于匹配成功的正则语句对应的报文类别和报文页码,确定单据图像的处理结果。这样,可自动识别出属于信用证报文的单据图像,且可识别出单据图像是哪类信用证报文是这类信用证报文的哪页,单据图像的处理效率更高。率更高。率更高。

【技术实现步骤摘要】
一种单据图像的处理方法、装置、电子设备及存储介质


[0001]本申请涉及图像处理
,尤其涉及一种单据图像的处理方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,他行通知信用证交单业务在银行出口审单业务中逐步增加,他行通知信用证交单业务会涉及多种类型的单据图像,目前,由审单人员凭借多年业务经验对单据图像进行分类,在确定单据图像的类别是信用证报文后,还需凭经验确定单据图像是MT700报文还是MT707报文,以及是MT700报文或MT707报文中的哪一页报文。这样,人力成本较高、单据图像的处理效率也比较低。

技术实现思路

[0003]本申请实施例提供一种单据图像的处理方法、装置、电子设备及存储介质,用以解决相关技术中在处理单据图像时存的人力成本高且处理效率低的问题。
[0004]第一方面,本申请实施例提供一种单据图像的处理方法,包括:
[0005]利用预先训练的至少两个分类模型,分别对获取的信用证交单业务中的单据图像进行单据类别识别;
[0006]基于所述至少两个分类模型的识别结果,确定所述单据图像的单据类别;
[0007]若所述单据类别是信用证报文,则利用多条正则语句对所述单据图像中的文本内容进行匹配,所述多条正则语句是根据每类信用证报文在每页报文上的关键语句预先确定的;
[0008]基于匹配成功的正则语句对应的报文类别和报文页码,确定所述单据图像的处理结果。
[0009]在一些实施例中,利用预先训练的至少两个分类模型,分别对获取的信用证交单业务中的单据图像进行单据类别识别,包括:
[0010]将所述单据图像转换成超文本标记语言HTML文本;
[0011]对所述HTML文本进行内容抽取,得到所述单据图像中包含的文本内容;
[0012]将所述文本内容输入每个分类模型中进行单据类别识别。
[0013]在一些实施例中,将所述文本内容输入每个分类模型中进行单据类别识别,包括:
[0014]将所述文本内容转换成词频逆文本频率tf

idf词向量;
[0015]将所述tf

idf词向量输入每个分类模型中进行单据类别识别。
[0016]在一些实施例中,在将所述文本内容输入每个分类模型中进行单据类别识别之前,还包括:
[0017]确定所述文本内容包含的字符数量不少于预设值。
[0018]在一些实施例中,每个分类模型的模型复杂度低于指定复杂度。
[0019]在一些实施例中,基于所述至少两个分类模型的识别结果,确定所述单据图像的
单据类别,包括:
[0020]对所述至少两个分类模型的识别结果进行统计;
[0021]若统计次数最多的识别结果只有一个,则将所述统计次数最多的识别结果确定为所述单据图像的单据类别;
[0022]若统计次数最多的识别结果有至少两个,则将预先确定的准确率最高的分类模型的识别结果作为所述单据图像的单据类别。
[0023]第二方面,本申请实施例提供一种单据图像的处理装置,包括:
[0024]识别模块,用于利用预先训练的至少两个分类模型,分别对获取的信用证交单业务中的单据图像进行单据类别识别;
[0025]类别确定模块,用于基于所述至少两个分类模型的识别结果,确定所述单据图像的单据类别;
[0026]匹配模块,用于若所述单据类别是信用证报文,则利用多条正则语句对所述单据图像中的文本内容进行匹配,所述多条正则语句是根据每类信用证报文在每页报文上的关键语句预先确定的;
[0027]结果确定模块,用于基于匹配成功的正则语句对应的报文类别和报文页码,确定所述单据图像的处理结果。
[0028]在一些实施例中,所述识别模块具体用于:
[0029]将所述单据图像转换成超文本标记语言HTML文本;
[0030]对所述HTML文本进行内容抽取,得到所述单据图像中包含的文本内容;
[0031]将所述文本内容输入每个分类模型中进行单据类别识别。
[0032]在一些实施例中,所述识别模块具体用于:
[0033]将所述文本内容转换成词频逆文本频率tf

idf词向量;
[0034]将所述tf

idf词向量输入每个分类模型中进行单据类别识别。
[0035]在一些实施例中,所述识别模块还用于:
[0036]在将所述文本内容输入每个分类模型中进行单据类别识别之前,确定所述文本内容包含的字符数量不少于预设值。
[0037]在一些实施例中,每个分类模型的模型复杂度低于指定复杂度。
[0038]在一些实施例中,所述类别确定模块具体用于:
[0039]对所述至少两个分类模型的识别结果进行统计;
[0040]若统计次数最多的识别结果只有一个,则将所述统计次数最多的识别结果确定为所述单据图像的单据类别;
[0041]若统计次数最多的识别结果有至少两个,则将预先确定的准确率最高的分类模型的识别结果作为所述单据图像的单据类别。
[0042]第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
[0043]存储器存储有可被至少一个处理器执行的指令,该指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述单据图像的处理方法。
[0044]第四方面,本申请实施例提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,所述电子设备能够执行上述单据图像的处理方法。
[0045]第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在被电子设备调用执行时,使得所述电子设备执行上述单据图像的处理方法。
[0046]本申请实施例中,利用预先训练的至少两个分类模型,分别对获取的信用证交单业务中的单据图像进行单据类别识别,基于这至少两个分类模型的识别结果,确定单据图像的单据类别,若单据类别是信用证报文,则利用多条正则语句对单据图像中的文本内容进行匹配,其中,多条正则语句是根据每类信用证报文在每页报文上的关键语句预先确定的,进而基于匹配成功的正则语句对应的报文类别和报文页码,确定单据图像的处理结果。这样,可自动识别出属于信用证报文的单据图像,且可识别出单据图像是哪类信用证报文是这类信用证报文的哪页,单据图像的处理效率更高。
附图说明
[0047]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0048]图1为本申请实施例提供的一种单据图像的处理方法的应用场景示意图;
[0049]图2为本申请实施例提供的一种单据图像的处理方法的流程图;
[0050]图3为本申请实施例提供的又一种单据图像的处理方法的流程图;
[0051]图4为本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单据图像的处理方法,其特征在于,包括:利用预先训练的至少两个分类模型,分别对获取的信用证交单业务中的单据图像进行单据类别识别;基于所述至少两个分类模型的识别结果,确定所述单据图像的单据类别;若所述单据类别是信用证报文,则利用多条正则语句对所述单据图像中的文本内容进行匹配,所述多条正则语句是根据每类信用证报文在每页报文上的关键语句预先确定的;基于匹配成功的正则语句对应的报文类别和报文页码,确定所述单据图像的处理结果。2.如权利要求1所述的方法,其特征在于,利用预先训练的至少两个分类模型,分别对获取的信用证交单业务中的单据图像进行单据类别识别,包括:将所述单据图像转换成超文本标记语言HTML文本;对所述HTML文本进行内容抽取,得到所述单据图像中包含的文本内容;将所述文本内容输入每个分类模型中进行单据类别识别。3.如权利要求2所述的方法,其特征在于,将所述文本内容输入每个分类模型中进行单据类别识别,包括:将所述文本内容转换成词频逆文本频率tf

idf词向量;将所述tf

idf词向量输入每个分类模型中进行单据类别识别。4.如权利要求2或3所述的方法,其特征在于,在将所述文本内容输入每个分类模型中进行单据类别识别之前,还包括:确定所述文本内容包含的字符数量不少于预设值。5.如权利要求1所述的方法,其特征在于,每个分类模型的模型复杂度低于指定复杂度。6.如权利要求1所述的方法,其特征在于,基于所述至少两个分类模型的识别结果,确定所述单据图像的单据类别,包括:对所述至少两个分类模型的识别结果进行统计;若统计次数最多的识别结果只有一个,则将所述统计次数最多的识别结果确定为所述单据图像的单据类别;若统计次数最多的识别结果有至少两个,则将预先确定的准确率最高的分类模型的识别结果作为所述单据图像的单据类别。7.一种单据图像的处理装置,其特征在于,包括:识别模块,用于利用预先训练的至少两个分类模型,分别对获取的信用证交单业务中的单据图像进行单据类别识别;类别确定模块,用于基于所述至少两个分类模型的识别结果,确定所述单据图像的单据类别;匹配模块,用于若所述单据类别是信用证报文,则利...

【专利技术属性】
技术研发人员:张文宇卜丽陆佳庆
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1