模型训练方法、合同文本的分类方法及装置制造方法及图纸

技术编号:39331155 阅读:9 留言:0更新日期:2023-11-12 16:07
本申请涉及图像处理技术领域,提供一种模型训练方法、合同文本的分类方法及装置。所述模型训练方法包括:根据各合同训练样本,对特征提取模型的文本提取模型和图像提取模型进行预训练,直至特征提取模型的损失函数收敛,得到目标特征提取模型;根据各合同训练样本进行数据增强后得到的合同训练样本集,对目标特征提取模型进行训练,得到训练好的目标特征提取模型。本申请实施例提供的模型训练方法能够更全面地提取合同文本的合同特征,提高合同文本的分类效率。本的分类效率。本的分类效率。

【技术实现步骤摘要】
模型训练方法、合同文本的分类方法及装置


[0001]本申请涉及图像处理
,具体涉及一种模型训练方法、合同文本的分类方法及装置。

技术介绍

[0002]随着经济的发展,越来越多的用户选择银行提供的金融服务,而金融服务需要签订相关的金融服务合同,因此银行会积累有大量的金融服务合同。为方便进行合同管理,可对合同文本进行特征提取,以基于提取到的合同特征对合同文本进行分类归档。而如何有效地提取合同文本的合同特征,以提高合同文本的分类效率,是当前亟需解决的问题。

技术实现思路

[0003]本申请旨在至少解决相关技术中存在的技术问题之一。为此,本申请提出一种模型训练方法、合同文本的分类方法及装置,能够更全面地提取合同文本的合同特征,提高合同文本的分类效率。
[0004]根据本申请第一方面实施例的模型训练方法,包括:根据各合同训练样本,对特征提取模型的文本提取模型和图像提取模型进行预训练,直至所述特征提取模型的损失函数收敛,得到目标特征提取模型;根据各所述合同训练样本进行数据增强后得到的合同训练样本集,对所述目标特征提取模型进行训练,得到训练好的目标特征提取模型;其中,所述特征提取模型的损失函数根据所述合同训练样本输入所述文本提取模型得到的文字特征,与所述合同训练样本输入所述图像提取模型得到的图像特征之间的余弦相似度,以及所述合同训练样本所属的合同类别确定;训练好的目标特征提取模型用于提取合同文本的合同特征。
[0005]通过各合同训练样本,对特征提取模型的文本提取模型和图像提取模型进行预训练,来得到目标特征提取模型后,再根据各合同训练样本进行数据增强后得到的合同训练样本集,对目标特征提取模型进行训练,得到训练好的目标特征提取模型,从而能够通过训练好的目标特征提取模型,从合同文本中提取到包括有关键词或文本语句等文本特征的图像特征,使从合同文本中提取到的合同特征更全面,进而提高合同文本的分类效率。
[0006]根据本申请的一个实施例,根据各合同训练样本,对特征提取模型的文本提取模型和图像提取模型进行预训练,直至所述特征提取模型的损失函数收敛,得到目标特征提取模型,包括:根据各所述合同训练样本,对特征提取模型的文本提取模型和图像提取模型进行训练,直至所述特征提取模型的损失函数收敛,剔除所述文本提取模型,以将完成预训练的图像提取模型确定为所述目标特征提取模型。
[0007]根据本申请的一个实施例,根据各所述合同训练样本进行数据增强后得到的合同训练样本集,对所述目标特征提取模型进行训练,得到训练好的目标特征提取模型,包括:
将所述合同训练样本中,属于同一合同类别的任意两个所述合同训练样本进行图像区域交换,得到多个修改训练样本;根据各所述合同训练样本以及各所述修改训练样本组成的合同训练样本集,对所述目标特征提取模型进行训练,得到训练好的目标特征提取模型。
[0008]根据本申请的一个实施例,进行区域交换的两个所述合同训练样本的图像区域,在同一坐标系中不相交。
[0009]根据本申请的一个实施例,根据各所述合同训练样本以及各所述修改训练样本组成的合同训练样本集,对所述目标特征提取模型进行训练,得到训练好的目标特征提取模型,包括:将所述修改训练样本输入所述目标特征提取模型,得到所述目标特征提取模型输出的样本图像特征;以及,将所述修改训练样本对应的合同训练样本输入图像特征提取模型,得到所述图像特征提取模型输出的目标图像特征;根据所述样本图像特征与所述目标图像特征的相似度,调整所述目标特征提取模型,直至所述目标特征提取模型的损失函数收敛,得到训练好的目标特征提取模型;其中,所述图像特征提取模型为所述目标特征提取模型的教师模型,所述图像特征提取模型的参数数量大于所述目标特征提取模型。
[0010]根据本申请第二方面实施例的合同文本的分类方法,包括:将合同文本输入训练好的目标特征提取模型,得到所述合同文本的合同特征;根据所述合同文本的合同特征,与任一合同类别的预设特征集的比对结果,确定所述合同文本所属的合同类别;其中,所述目标特征提取模型根据上述任一实施例所述的模型训练方法训练得到;任一所述合同类别的预设特征集,通过属于所述合同类别的各合同训练样本输入训练好的目标特征提取模型得到。
[0011]根据本申请的一个实施例,根据所述合同文本的合同特征,与任一合同类别的预设特征集的比对结果,确定所述合同文本所属的合同类别,包括:确定所述合同文本的合同特征,与各合同类别的预设特征集均不匹配,根据所述合同特征,新增所述合同类别。
[0012]通过将合同文本输入训练好的目标特征提取模型,得到合同文本的合同特征,以根据合同文本的合同特征,与任一合同类别的预设特征集的比对结果,确定合同文本所属的合同类别,从而能够通过训练好的目标特征提取模型,从合同文本中提取到包括有关键词或文本语句等文本特征的图像特征作为合同特征,使从合同文本中提取到的合同特征更全面,进而提高合同文本的分类效率。
[0013]根据本申请第三方面实施例的模型训练装置,包括:第一训练模块,用于根据各合同训练样本,对特征提取模型的文本提取模型和图像提取模型进行预训练,直至所述特征提取模型的损失函数收敛,得到目标特征提取模型;第二训练模块,用于根据各所述合同训练样本进行数据增强后得到的合同训练样本集,对所述目标特征提取模型进行训练,得到训练好的目标特征提取模型;
其中,所述特征提取模型的损失函数根据所述合同训练样本输入所述文本提取模型得到的文字特征,与所述合同训练样本输入所述图像提取模型得到的图像特征之间的余弦相似度,以及所述合同训练样本所属的合同类别确定;训练好的目标特征提取模型用于提取合同文本的合同特征。
[0014]根据本申请第四方面实施例的合同文本的分类装置,包括:特征提取模块,用于将合同文本输入训练好的目标特征提取模型,得到所述合同文本的合同特征;合同分类模块,用于根据所述合同文本的合同特征,与任一合同类别的预设特征集的比对结果,确定所述合同文本所属的合同类别;其中,所述目标特征提取模型根据上述任一实施例所述的模型训练方法训练得到;任一所述合同类别的预设特征集,通过属于所述合同类别的各合同训练样本输入训练好的目标特征提取模型得到。
[0015]根据本申请第五方面实施例的电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现上述任一实施例所述的模型训练方法或合同文本的分类方法。
[0016]根据本申请第六方面实施例的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的模型训练方法或合同文本的分类方法。
附图说明
[0017]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本申请实施例提供的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:根据各合同训练样本,对特征提取模型的文本提取模型和图像提取模型进行预训练,直至所述特征提取模型的损失函数收敛,得到目标特征提取模型;根据各所述合同训练样本进行数据增强后得到的合同训练样本集,对所述目标特征提取模型进行训练,得到训练好的目标特征提取模型;其中,所述特征提取模型的损失函数根据所述合同训练样本输入所述文本提取模型得到的文字特征,与所述合同训练样本输入所述图像提取模型得到的图像特征之间的余弦相似度,以及所述合同训练样本所属的合同类别确定;训练好的目标特征提取模型用于提取合同文本的合同特征。2.根据权利要求1所述的模型训练方法,其特征在于,根据各合同训练样本,对特征提取模型的文本提取模型和图像提取模型进行预训练,直至所述特征提取模型的损失函数收敛,得到目标特征提取模型,包括:根据各所述合同训练样本,对特征提取模型的文本提取模型和图像提取模型进行训练,直至所述特征提取模型的损失函数收敛,剔除所述文本提取模型,以将完成预训练的图像提取模型确定为所述目标特征提取模型。3.根据权利要求1或2所述的模型训练方法,其特征在于,根据各所述合同训练样本进行数据增强后得到的合同训练样本集,对所述目标特征提取模型进行训练,得到训练好的目标特征提取模型,包括:将所述合同训练样本中,属于同一合同类别的任意两个所述合同训练样本进行图像区域交换,得到多个修改训练样本;根据各所述合同训练样本以及各所述修改训练样本组成的合同训练样本集,对所述目标特征提取模型进行训练,得到训练好的目标特征提取模型。4.根据权利要求3所述的模型训练方法,其特征在于,进行区域交换的两个所述合同训练样本的图像区域,在同一坐标系中不相交。5.根据权利要求3所述的模型训练方法,其特征在于,根据各所述合同训练样本以及各所述修改训练样本组成的合同训练样本集,对所述目标特征提取模型进行训练,得到训练好的目标特征提取模型,包括:将所述修改训练样本输入所述目标特征提取模型,得到所述目标特征提取模型输出的样本图像特征;以及,将所述修改训练样本对应的合同训练样本输入图像特征提取模型,得到所述图像特征提取模型输出的目标图像特征;根据所述样本图像特征与所述目标图像特征的相似度,调整所述目标特征提取模型,直至所述目标特征提取模型的损失函数收敛,得到训练好的目标特征提取模型;其中,所述图像特征提取模型为所述目标特...

【专利技术属性】
技术研发人员:苏沁宁龚静
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1