一种公司印章识别方法及其相关设备技术

技术编号:38990337 阅读:10 留言:0更新日期:2023-10-07 10:20
本申请实施例属于人工智能及金融科技技术领域,应用于对金融保险合同内容进行审核时的公司印章内容识别过程中,涉及一种公司印章识别方法及其相关设备,包括获取批量训练文档;将批量训练文档输入预构建的公司印章识别模型进行模型训练,获得训练完成的公司印章识别模型;获取目标待测文档;将目标待测文档输入训练完成的公司印章识别模型进行结果预测;根据预设的参照词典,采用编辑距离法识别预测结果对应的真实结果,完成对目标待测文档中公司印章的识别。直接赋予视觉模型语言能力,提高了预测速度,通过采用编辑距离算法避免待测文档对应的公司印章文字预测结果中单个字符存在背景干扰,单独的视觉模型无法准确判断,提高预测结果的准确度。提高预测结果的准确度。提高预测结果的准确度。

【技术实现步骤摘要】
一种公司印章识别方法及其相关设备


[0001]本申请涉及人工智能及金融科技
,应用于对金融保险合同内容进行审核时的公司印章内容识别过程中,尤其涉及一种公司印章识别方法及其相关设备。

技术介绍

[0002]随着计算机行业的发展,越来越多的金融业务需要转变为线上的金融科技业务,例如,金融业务中合同签订时的签订主体识别业务,尤其是对金融保险合同内容进行审核时的公司印章内容识别过程,既可以应用到保险理赔时合同审核过程,也可以用于银行向目标商户进行产业扶持放贷业务中。由于现有的合同审核还依然采用人工审核方式,无疑增加了相关工作人员的工作量,而且也不利于相关业务的快速开展,耗时耗力。
[0003]目前,现有的智能化方案一般通过OCR技术识别印章和文件中的公司名以进行比对。然而,由于加盖印章的位置经常与文件文本重叠,文件文本会对印章文本造成很大干扰,导致识别准确率太低。现有的解决方案是在视觉模型之后再增加语义模型来修正结果。但是增加语义模型会极大增加模型参数,导致增大模型开销,延长模型推理时间,同时该方法将视觉与语义信息分割应用,效果不佳。

技术实现思路

[0004]本申请实施例的目的在于提出一种公司印章识别方法及其相关设备,以解决现有技术对文档中加盖印章识别时增加语义模型会极大增加模型参数,导致增大模型开销,延长模型推理时间,识别精度低的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种公司印章识别方法,采用了如下所述的技术方案:
[0006]一种公司印章识别方法,包括下述步骤:
[0007]获取批量训练文档,其中,每个训练文档都为带有公司印章的电子文档;
[0008]将所述批量训练文档输入预构建的公司印章识别模型进行模型训练,获得训练完成的公司印章识别模型,其中,所述公司印章识别模型包括由残差神经网络结构构建的特征提取层,由卷积神经网络结构构建的字符掩码层以及由视觉超分辨率单元和并行预测单元共同构建的对照预测层;
[0009]获取目标待测文档,其中,所述目标待测文档指带有公司印章的待识别电子文档;
[0010]将所述目标待测文档输入所述训练完成的公司印章识别模型进行结果预测,获得预测结果;
[0011]根据预设的参照词典,采用编辑距离法识别所述预测结果对应的真实结果,完成对所述目标待测文档中公司印章的识别。
[0012]进一步的,在执行所述获取批量训练文档的步骤之后,所述方法还包括:
[0013]根据预设的颜色调整方式,对所述批量训练文档中每个训练文档中文字内容进行颜色加深调整,获取颜色调整之后的批量训练文档,其中,所述预设的颜色调整方式包括色
彩曲线调整、色阶调整和多层文字叠加调整中至少一种调整方式。
[0014]进一步的,在执行所述将所述批量训练文档输入预构建的公司印章识别模型进行模型训练的步骤之前,所述方法还包括:
[0015]构建公司印章识别模型,其中,所述公司印章识别模型包括特征提取层、字符掩码层和对照预测层,所述特征提取层为ResNet残差神经网络结构,所述ResNet残差神经网络包括ResNet152残差神经网络,所述字符掩码层为R

CNN卷积神经网络结构,所述对照预测层由ASR视觉超分辨率单元和PP算法并行预测单元共同构成。
[0016]进一步的,所述将所述批量训练文档输入预构建的公司印章识别模型进行模型训练,获得训练完成的公司印章识别模型的步骤,具体包括:
[0017]将所述颜色调整之后的批量训练文档依次输入到所述预构建的公司印章识别模型;
[0018]根据所述预构建的公司印章识别模型中特征提取层的ResNet152残差神经网络对所述颜色调整之后的批量训练文档依次进行视觉特征和文本特征提取,获取每个训练文档对应的视觉特征和文本特征,完成对所述特征提取层的训练;
[0019]通过解析每个训练文档对应的视觉特征和文本特征,分别获取每个训练文档中各个目标字符索引的位置信息;
[0020]任选一训练文档作为当前训练文档,将当前训练文档的视觉特征输入到所述R

CNN卷积神经网络结构中,并依次将所述当前训练文档中每个目标字符索引的位置信息作为掩码位置信息输入到所述R

CNN卷积神经网络结构中;
[0021]根据所述当前训练文档的视觉特征以及所述当前训练文档中每个目标字符索引的位置信息,采用弱监督学习方式,生成初始掩码器;
[0022]依次获取所述批量训练文档中每一个训练文档作为所述当前训练文档,采用弱监督学习方式对所述初始掩码器进行更新,直至每一个训练文档均完成所述弱监督学习为止,获得最终掩码器,完成对所述字符掩码层的训练;
[0023]将每个训练文档、每个训练文档对应的视觉特征以及文本特征传输到所述对照预测层,对ASR视觉超分辨率单元进行训练,训练出基本文本识别单元,获取每个训练文档对应的第一文本识别结果;
[0024]将每个训练文档输入到所述最终掩码器内,获取每个训练文档所对应的目标掩码文档,再将所述每个训练文档所对应的目标掩码文档输入到所述对照预测层,对ASR视觉超分辨率单元进行训练,训练出掩码文本识别单元,获取每个训练文档对应的第二文本识别结果;
[0025]采用所述PP算法并行预测单元分别对每个训练文档对应的所述第一文本识别结果和每个训练文档对应的所述第二文本识别结果之间进行对比推断,获得每个训练文档对应的目标掩码文档中被掩码的字符,完成对所述对照预测层的训练。
[0026]进一步的,在执行所述获取目标待测文档的步骤之后,所述方法还包括:
[0027]按照所述颜色调整方式,对所述目标待测文档中文字内容进行颜色加深调整,获取颜色调整之后的目标待测文档。
[0028]进一步的,所述将所述目标待测文档输入所述训练完成的公司印章识别模型进行结果预测,获得预测结果的步骤,具体包括:
[0029]将所述目标待测文档输入到训练完成的所述特征提取层,获取所述目标待测文档的视觉特征和文本特征;
[0030]通过解析所述目标待测文档的视觉特征和文本特征,依次获取所述目标待测文档中公司印章文字的位置信息;
[0031]将每个所述公司印章文字的位置信息作为字符索引信息设置到所述最终掩码器内;
[0032]根据所述最终掩码器和每个所述公司印章文字的位置信息,生成所述目标待测文档对应的待测掩码文档,其中,所述待测掩码文档的数量与所述公司印章文字的数量相同;
[0033]将所述目标待测文档和所述待测掩码文档输入到训练完成的所述对照预测层,分别获取所述目标待测文档和所述待测掩码文档对应的文本识别结果,通过对比识别,提取所述目标待测文档对应的公司印章文字预测结果。
[0034]进一步的,所述根据预设的参照词典,采用编辑距离法识别所述预测结果对应的真实结果,完成对所述目标待测文档中公司印章的识别的步骤,具体包括:
[0035]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种公司印章识别方法,其特征在于,包括下述步骤:获取批量训练文档,其中,每个训练文档都为带有公司印章的电子文档;将所述批量训练文档输入预构建的公司印章识别模型进行模型训练,获得训练完成的公司印章识别模型,其中,所述公司印章识别模型包括由残差神经网络结构构建的特征提取层,由卷积神经网络结构构建的字符掩码层以及由视觉超分辨率单元和并行预测单元共同构建的对照预测层;获取目标待测文档,其中,所述目标待测文档指带有公司印章的待识别电子文档;将所述目标待测文档输入所述训练完成的公司印章识别模型进行结果预测,获得预测结果;根据预设的参照词典,采用编辑距离法识别所述预测结果对应的真实结果,完成对所述目标待测文档中公司印章的识别。2.根据权利要求1所述的公司印章识别方法,其特征在于,在执行所述获取批量训练文档的步骤之后,所述方法还包括:根据预设的颜色调整方式,对所述批量训练文档中每个训练文档中文字内容进行颜色加深调整,获取颜色调整之后的批量训练文档,其中,所述预设的颜色调整方式包括色彩曲线调整、色阶调整和多层文字叠加调整中至少一种调整方式。3.根据权利要求2所述的公司印章识别方法,其特征在于,在执行所述将所述批量训练文档输入预构建的公司印章识别模型进行模型训练的步骤之前,所述方法还包括:构建公司印章识别模型,其中,所述公司印章识别模型包括特征提取层、字符掩码层和对照预测层,所述特征提取层为ResNet残差神经网络结构,所述ResNet残差神经网络包括ResNet152残差神经网络,所述字符掩码层为R

CNN卷积神经网络结构,所述对照预测层由ASR视觉超分辨率单元和PP算法并行预测单元共同构成。4.根据权利要求3所述的公司印章识别方法,其特征在于,所述将所述批量训练文档输入预构建的公司印章识别模型进行模型训练,获得训练完成的公司印章识别模型的步骤,具体包括:将所述颜色调整之后的批量训练文档依次输入到所述预构建的公司印章识别模型;根据所述预构建的公司印章识别模型中特征提取层的ResNet152残差神经网络对所述颜色调整之后的批量训练文档依次进行视觉特征和文本特征提取,获取每个训练文档对应的视觉特征和文本特征,完成对所述特征提取层的训练;通过解析每个训练文档对应的视觉特征和文本特征,分别获取每个训练文档中各个目标字符索引的位置信息;任选一训练文档作为当前训练文档,将当前训练文档的视觉特征输入到所述R

CNN卷积神经网络结构中,并依次将所述当前训练文档中每个目标字符索引的位置信息作为掩码位置信息输入到所述R

CNN卷积神经网络结构中;根据所述当前训练文档的视觉特征以及所述当前训练文档中每个目标字符索引的位置信息,采用弱监督学习方式,生成初始掩码器;依次获取所述批量训练文档中每一个训练文档作为所述当前训练文档,采用弱监督学习方式对所述初始掩码器进行更新,直至每一个训练文档均完成所述弱监督学习为止,获得最终掩码器,完成对所述字符掩码层的训练;
将每个训练文档、每个训练文档对应的视觉特征以及文本特征传输到所述对照预测层,对ASR视觉超分辨率单元进行训练,训练出基本文本识别单元,获取每个训练文档对应的第一文本识别结果;将每个训练文档输入到所述最终掩码器内,获取每个训练文档所对应的目标掩码文档,再将所述每个训练文档所对应的目标掩码文档输入到所述对照预测层,对ASR视觉超分辨率单元进行训...

【专利技术属性】
技术研发人员:张旭
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1