文本分类模型训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38392778 阅读:13 留言:0更新日期:2023-08-05 17:45
本发明专利技术公开了一种文本分类模型训练方法,该方法获取文本训练数据集;在训练过程中对初始本地模型执行动态学习率调整操作,得到预测标签;根据同一文本训练数据对应的样本标签和所有预测标签,确定预测损失值,并根据预测损失值对所有文本训练数据进行筛选,得到目标文本数据;通过目标文本数据对第一本地模型进行训练,得到第二本地模型;获取第二本地模型对应的本地模型参数,以令服务器根据所有客户端发送的本地模型参数生成文本分类模型。本发明专利技术通过所有文本训练数据对初始本地模型进行训练,实现了对不同学习率下预测损失值的确定。通过目标文本数据对第一本地模型的训练,得到第二本地模型,提高了第二本地模型预测的准确性。性。性。

【技术实现步骤摘要】
文本分类模型训练方法、装置、计算机设备及存储介质


[0001]本专利技术涉及模型构建
,尤其涉及一种文本分类模型训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着分布式机器学习和大数据分析的发展,联邦学习作为一种新型的分布式机器学习框架,满足了多个客户端在数据安全的要求下进行模型训练。在联邦学习场景下,多个客户端虽然增加了更多的数据,但也增加了数据噪声的风险。比如分类任务中的噪声标签问题,这些噪声标签会影响模型训练的准确性。
[0003]现有的解决标签噪声问题的技术,往往高度依赖于一个完全干净的参照数据集,这样的参照数据集要求标签信息完全准确。当参照数据集规模有限时,其类别分布和总体分布不一定一致,对于多分类任务来说模型预测结果的参考价值较低。

技术实现思路

[0004]本专利技术实施例提供一种文本分类模型训练方法、装置、计算机设备及存储介质,以解决现有技术中文本训练数据集存在噪音文本数据的问题。
[0005]一种文本分类模型训练方法,所述文本分类模型训练方法应用在联邦学习系统中的至少一个客户端中;所述联邦学习系统还包括服务器,包括:
[0006]获取文本训练数据集;所述文本训练数据集中包括至少一个文本训练数据;一个所述文本训练数据关联一个样本标签;
[0007]在通过所述文本训练数据对初始本地模型进行训练过程中,对所述初始本地模型执行动态学习率调整操作,获取所述初始本地模型输出所述文本训练数据在不同学习率下的预测标签;
[0008]根据同一所述文本训练数据对应的样本标签和所有预测标签,确定所述文本训练数据对应的预测损失值,并根据所述预测损失值对所有所述文本训练数据进行筛选,得到目标文本数据;
[0009]通过所述目标文本数据对第一本地模型进行训练,得到第二本地模型;所述第一本地模型通过所述文本训练数据对初始本地模型进行训练得到;
[0010]获取所述第二本地模型对应的本地模型参数,并将所述本地模型参数发送至所述服务器中,以令所述服务器根据所有所述客户端发送的本地模型参数生成文本分类模型。
[0011]一种文本分类模型训练装置,包括:
[0012]数据获取模块,用于获取文本训练数据集;所述文本训练数据集中包括至少一个文本训练数据;一个所述文本训练数据关联一个样本标签;
[0013]模型预测模块,用于在通过所述文本训练数据对初始本地模型进行训练过程中,对所述初始本地模型执行动态学习率调整操作,获取所述初始本地模型输出所述文本训练数据在不同学习率下的预测标签;
[0014]数据筛选模块,用于根据同一所述文本训练数据对应的样本标签和所有预测标签,确定所述文本训练数据对应的预测损失值,并根据所述预测损失值对所有所述文本训练数据进行筛选,得到目标文本数据;
[0015]模型训练模块,用于通过所述目标文本数据对第一本地模型进行训练,得到第二本地模型;所述第一本地模型通过所述文本训练数据对初始本地模型进行训练得到;
[0016]模型生成模块,用于获取所述第二本地模型对应的本地模型参数,并将所述本地模型参数发送至所述服务器中,以令所述服务器根据所有所述客户端发送的本地模型参数生成文本分类模型。
[0017]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本分类模型训练方法。
[0018]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本分类模型训练方法。
[0019]本专利技术提供一种文本分类模型训练方法、装置、计算机设备及存储介质,该方法在第一阶段通过所有文本训练数据在不同学习率下对初始本地模型进行训练,从而得到第一本地模型,实现了对不同学习率下预测标签的预测,使得类别分布和总体分布具有一致性。通过箱形图分析法根据预测损失值从所有文本训练数据中筛选出目标文本数据(也即剔除噪音文本数据),使得第二阶段对第一本地模型训练的数据为目标文本训练数据,从而提高了第二本地模型预测的准确性,提升了文本分类模型预测的预测标签的参考价值。进而提高了客户端文本分类模型的泛化能力。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术一实施例中文本分类模型训练方法的应用环境示意图;
[0022]图2是本专利技术一实施例中文本分类模型训练方法的流程图;
[0023]图3是本专利技术一实施例中文本分类模型训练方法中步骤S20的流程图;
[0024]图4是本专利技术一实施例中文本分类模型训练装置的原理框图;
[0025]图5是本专利技术一实施例中计算机设备的示意图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]本专利技术实施例提供的文本分类模型训练方法,该文本分类模型训练方法可应用如图1所示的应用环境中。具体地,该文本分类模型训练方法应用在文本分类模型训练装置
中,该文本分类模型训练装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中文本训练数据集存在噪音文本数据的问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
[0028]在一实施例中,如图2所示,提供一种文本分类模型训练方法,以该方法应用在图1中的客户端为例进行说明,包括如下步骤:
[0029]S10:获取文本训练数据集;所述文本训练数据集中包括至少一个文本训练数据;一个所述文本训练数据关联一个样本标签。
[0030]可理解地,文本训练数据可以从不同的网站或客户端上采集得到,亦或者从不同的数据库中采集得到。进而根据获取的所有文本训练数据构建文本训练数据集。其中,文本训练数据可以是直接获取的文本数据,也可以是语音数据转化的文本数据。样本标签作为文本训练数据的表征,在不同应用场景下该样本标签表征的含义不同。示例性地,在关键词抽取的应用场景下,该样本标签即表征了文本训练数据中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型训练方法,其特征在于,所述文本分类模型训练方法应用在联邦学习系统中的至少一个客户端中;所述联邦学习系统还包括服务器;所述文本分类模型训练方法包括:获取文本训练数据集;所述文本训练数据集中包括至少一个文本训练数据;一个所述文本训练数据关联一个样本标签;在通过所述文本训练数据对初始本地模型进行训练过程中,对所述初始本地模型执行动态学习率调整操作,获取所述初始本地模型输出所述文本训练数据在不同学习率下的预测标签;根据同一所述文本训练数据对应的样本标签和所有预测标签,确定所述文本训练数据对应的预测损失值,并根据所述预测损失值对所有所述文本训练数据进行筛选,得到目标文本数据;通过所述目标文本数据对第一本地模型进行训练,得到第二本地模型;所述第一本地模型通过所述文本训练数据对初始本地模型进行训练得到;获取所述第二本地模型对应的本地模型参数,并将所述本地模型参数发送至所述服务器中,以令所述服务器根据所有所述客户端发送的本地模型参数生成文本分类模型。2.如权利要求1所述的文本分类模型训练方法,其特征在于,所述对所述初始本地模型执行动态学习率调整操作,获取所述初始本地模型输出所述文本训练数据在不同学习率下的预测标签,包括:通过所述初始本地模型中的卷积层对所述文本训练数据进行卷积处理,得到卷积特征向量;通过所述初始本地模型中的最值池化层对所述卷积特征向量进行池化处理,得到池化特征向量;将所述池化特征向量输入至所述初始本地模型中的残差网络层,并获取所述残差网络层输出的残差特征向量;通过所述初始本地模型中的全局均值池化层对所述残差特征向量进行池化处理,得到均值池化向量;通过所述初始本地模型中的全连接层对所述均值池化向量进行预测,得到所述预测标签。3.如权利要求1所述的文本分类模型训练方法,其特征在于,所述根据所述预测损失值对所有所述文本训练数据进行筛选,得到目标文本数据,包括:对所有所述预测损失值进行加权处理,得到各文本训练数据对应的预测样本值;根据所有所述预测样本值对所有所述文本训练数据进行筛选,得到目标文本数据,并将所述文本训练数据对应的所述样本标签确定为所述目标文本数据对应的目标标签。4.如权利要求3所述的文本分类模型训练方法,其特征在于,所述根据所有所述预测样本值对所有所述文本训练数据进行筛选,得到目标文本数据,包括:对所有所述预测样本值进行排序,并确定所述预测样本值中的下四分位数、上四分位数以及四分位距,得到箱形图;根据所述上四分位数以及所述四分位距,确定区间最小值;将所有所述预测样本值和所述区间最小值进行比较,将小于所述区间最小值的所述预
测样本值对应的所述文本训练数据确定为所述目标文本数据。5.如权利要求3所述的文本分类模型训练方法,其特征在于,所述对所有所述预测损失值进行加权处理,得到各文本训练数据对应的预测样本值,包括:对所有所述预测损失值进行均值处理,得到各文本训练数据对应的平均损失值;对所有所述预测损失值进行方差处理,得到各...

【专利技术属性】
技术研发人员:李泽远王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1