一种多模态单证分类方法、系统、计算机设备及存储介质技术方案

技术编号:38193986 阅读:14 留言:0更新日期:2023-07-20 21:13
本发明专利技术提供了一种多模态单证分类方法、系统和存储介质,应用于多模态单证分类系统,所述方法包括,对N个待分类单证图像进行粗分类,获得第一粗分类单证图像;提取所述第一粗分类单证图像进行文本检测,获得至少一个文本区域;将每一所述文本区域进行分割,获得至少一个文本图像块;将所述文本图像块输入预先训练的字段识别模型进行类别细分,获得细分标签;根据所述细分标签确定所述待分类单针图像的目标类别,获得目标分类单证图像,从而解决针对多类别的、少训练样本的分类问题比较难解决,提升了分类效率。提升了分类效率。提升了分类效率。

【技术实现步骤摘要】
一种多模态单证分类方法、系统、计算机设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种多模态单证分类方法、系统、计算机设备及存储介质。

技术介绍

[0002]在金融保险行业,因业务审批流程不同,会产生不同的业务单据证件,且在对其进行处理时,需要对其进行分类,在金融领域,存在很多难以分类的单独证明类文件,且同一类型之间还存在模板更替,或者多种模板样式的问题,不同类型之间的单证之间因非常相似导致难以区分,且上述难以分类的问题很难用大训练量进行解决,因为训练样本不足,所以目前针对图像分类问题可以使用粗粒度分类问题和细粒度分类的方法进行分类,但针对多类别的、少训练样本的分类问题比较难解决,因此,因此业务上需要一种可以精确区分不同单证的方案

技术实现思路

[0003]本专利技术的主要目的在于提供了一种多模态单证分类方法、系统和存储介质,旨在解决现有的大批量单证分类效率低下的技术问题。
[0004]为实现上述目的,本专利技术提供一种多模态单证分类方法,所述方法包括:
[0005]对N个待分类单证图像进行粗分类,获得第一粗分类单证图像;
[0006]提取所述第一粗分类单证图像进行文本检测,获得至少一个文本区域;
[0007]将每一所述文本区域进行分割,获得至少一个文本图像块;
[0008]将所述文本图像块输入预先训练的字段识别模型进行类别细分,获得细分标签;
[0009]根据所述细分标签确定所述待分类单针图像的目标类别,获得目标分类单证图像。/>[0010]可选地,所述对N个待分类单证图像进行粗分类,获得第一粗分类单证图像,所述方法包括:
[0011]对所述待分类单证图像进行图像切割,获得至少一个待选定区域;
[0012]根据预设的抑制条件对所述待选定区域进行冗余去除,获得至少一个选定区域;
[0013]将所述选定区域输入至预先训练好的分类模型,获得所述选定区域的第一置信度,所述第一置信度用于确定所述待分类单证图像为所述粗分类中第一粗分类的概率;
[0014]提取满足预设条件的所述第一置信度对应的所述待分类单证图像,获得第一粗分类单证图像。
[0015]可选地,所述提取所述第一粗分类单证图像进行文本检测,获得至少一个文本区域,所述方法包括:
[0016]对所述第一粗分类单证图像进行特征提取,获得至少一个特征图像块;
[0017]根据所述特征图像块对所述第一分类单证图像进行旋转角度预测,获得调整角度;
[0018]根据所述调整角度对所述第一粗分类单证图像像进行角度调整;
[0019]对角度调整后的所述第一粗分类单证图像进行文字检测,获得至少一个包括文字的文本区域。
[0020]可选地,所述将每一所述文本区域进行分割,获得至少一个文本图像块,所述方法包括:
[0021]提取所述文本区域的浅层特征,获得文本浅层特征集;
[0022]根据所述文本浅层特征集对所述文本区域进行实例预测,获得至少一个文本实例;
[0023]根据所述文本区域的坐标对所述文本实例进行分割,获得至少一个文本图像块。
[0024]可选地,所述根据所述细分标签确定所述待分类单针图像的目标类别,获得目标分类单证图像,所述方法包括:
[0025]基于所述细分标签将所述文本图像块中对应的字段进行提取,获得匹配字段;
[0026]提取预设匹配规则对所述匹配字段进行类别匹配,获得目标分类单证图像;
[0027]若生成匹配异常则提所述匹配异常对应的所述第一粗分类单证输入所述分类模型进行分类,获得目标分类单证图像。
[0028]可选地,所述对N个待分类单证图像进行粗分类之后,所述方法还包括:
[0029]对所述待分类单证图像进行图像切割,获得至少一个待选定区域;
[0030]根据预设的抑制条件对所述待选定区域进行冗余去除,获得至少一个选定区域
[0031]将所述选定区域输入至预先训练好的分类模型,获得所述选定区域的第二置信度,所述第一置信度用于确定所述待分类单证图像为所述粗分类中第二粗分类的概率
[0032]提取满足预设条件的所述第二置信度对应的所述待分类单证图像,获得第二粗分类单证图像。
[0033]可选的,所述字识别模型包括:深层卷积层、循环层和转录层,所述将所述文本图像块输入预先训练的字段识别模型进行类别细分,获得细分标签,所述方法包括:
[0034]将所述文本图像块输入所述深层卷积层进行特征识别,获得特征序列;
[0035]利用所述循环层对所述特征序列进行标签预测,获得预测分布;
[0036]利用转录层将所述预测分布和所述特征序列进行去重整合,获得细分标签。
[0037]此外,为实现上述目的,本专利技术还提供一种多模态单证分类系统,所述系统包括;
[0038]粗分类模块:用于对N个待分类单证图像进行粗分类,获得第一粗分类单证图像;
[0039]文本检测模块:用于提取所述第一粗分类单证图像进行文本检测,获得至少一个文本区域;
[0040]文本分割模块:用于将每一所述文本区域进行分割,获得至少一个文本图像块;
[0041]文本识别模块:用于将所述文本图像块输入预先训练的字段识别模型进行类别细分,获得细分标签;
[0042]细分类模块:用于根据所述细分标签确定所述待分类单针图像的目标类别,获得目标分类单证图像。
[0043]此外,为实现上述目的,本专利技术还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的多模态单证分类方法的步骤。
[0044]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的多模态单证分类方法的步骤。
[0045]与现有技术相比,本申请实施例主要有以下有益效果:
[0046]本申请实施例提出的一种多模态单证分类方法,方法包括对N个待分类单证图像进行粗分类,获得第一粗分类单证图像;提取所述第一粗分类单证图像进行文本检测,获得至少一个文本区域;将每一所述文本区域进行分割,获得至少一个文本图像块;将所述文本图像块输入预先训练的字段识别模型进行类别细分,获得细分标签;根据所述细分标签确定所述待分类单针图像的目标类别,获得目标分类单证图像,从而解决针对多类别的、少训练样本的分类问题比较难解决,提升了分类效率。
附图说明
[0047]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0048]图1是本申请可以应用于其中的示例性系统架构图;
[0049]图2是根据本申请的多本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态单证分类方法,其特征在于,所述方法包括:对N个待分类单证图像进行粗分类,获得第一粗分类单证图像;提取所述第一粗分类单证图像进行文本检测,获得至少一个文本区域;将每一所述文本区域进行分割,获得至少一个文本图像块;将所述文本图像块输入预先训练的字段识别模型进行类别细分,获得细分标签;根据所述细分标签确定所述待分类单针图像的目标类别,获得目标分类单证图像。2.如权利要求1所述的一种多模态单证分类方法,其特征在于,所述对N个待分类单证图像进行粗分类,获得第一粗分类单证图像,包括:对所述待分类单证图像进行图像切割,获得至少一个待选定区域;根据预设的抑制条件对所述待选定区域进行冗余去除,获得至少一个选定区域;将所述选定区域输入至预先训练好的分类模型,获得所述选定区域的第一置信度,所述第一置信度用于确定所述待分类单证图像为所述粗分类中第一粗分类的概率;提取满足预设条件的所述第一置信度对应的所述待分类单证图像,获得第一粗分类单证图像。3.如权利要求2所述的一种多模态单证分类方法,其特征在于,所述对N个待分类单证图像进行粗分类之后,所述方法还包括:对所述待分类单证图像进行图像切割,获得至少一个待选定区域;根据预设的抑制条件对所述待选定区域进行冗余去除,获得至少一个选定区域;将所述选定区域输入至预先训练好的分类模型,获得所述选定区域的第二置信度,所述第一置信度用于确定所述待分类单证图像为所述粗分类中第二粗分类的概率;提取满足预设条件的所述第二置信度对应的所述待分类单证图像,获得第二粗分类单证图像。4.如权利要求1所述的一种多模态单证分类方法,其特征在于,所述提取所述第一粗分类单证图像进行文本检测,获得至少一个文本区域,包括:对所述第一粗分类单证图像进行特征提取,获得至少一个特征图像块;根据所述特征图像块对所述第一分类单证图像进行旋转角度预测,获得调整角度;根据所述调整角度对所述第一粗分类单证图像像进行角度调整;对角度调整后的所述第一粗分类单证图像进行文字检测,获得至少一个包括文字的文本区域。5.如权利要求1所述的一种多模态单证分类方法,其特征在于,所述将每一所述文本区域进行分割,...

【专利技术属性】
技术研发人员:刘颖
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1