数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39402270 阅读：8 留言：0更新日期：2023-11-19 15:54

本发明专利技术公开了一种数据处理方法、装置、电子设备及存储介质，该方法包括获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据，采用增强模型对有标签数据和无标签数据进行增强，得到有标签数据集和无标签数据集，通过分类模型对有标签数据集和无标签数据集进行预测处理，以得到增强前后的有标签数据的预测结果、增强前后的无标签数据的预测结果，然后根据预测结果确定第一损失值、第二损失值、第三损失值，并基于确定的损失值，对预设的增强模型的模型参数进行优化以得到完成训练的半监督模型。采用本发明专利技术实施例提供的方法训练得到的半监督模型，能够实现同时对有标签数据和无标签数据进行增强，解决了深度学习中样本少的困境。样本少的困境。样本少的困境。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]深度学习的模型训练通常依赖大量的标签数据，在只有少量数据上通常表现不好。在这种背景下，数据增强应运而生。数据增强是一种通过让有限的数据产生更多的数据来人工扩展数据集的技术，它既可以缓解数据量不足的问题，也可以用于提高模型的性能。
[0003]以训练数据的类型作为划分节点，数据增强可以分为有监督的数据增强和无监督的数据增强。有监督的数据增强是只针对标注数据进行数据扩增，而有标签的数据通常是少量的，监督式数据增强只能提高有限的性能。无监督数据增强通过在总损失函数中加入一致性损失函数，将有监督的数据增强扩展到未标注数据中，此方法能保证增强前后数据分布的一致性，但未充分利用监督数据的数据信息。因此，现有技术仍无法解决深度学习中样本少的困境。

技术实现思路

[0004]本专利技术实施例的目的是提供一种数据处理方法、装置、电子设备及存储介质，以解决深度学习中样本少的困境。
[0005]在第一方面，为实现上述目的，本专利技术实施例提供了一种数据处理方法，包括：
[0006]获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据；
[0007]采用所述预设的增强模型对所述有标签数据和所述无标签数据进行增强，得到有标签数据集和无标签数据集；
[0008]通过所述训练后的分类模型对所述有标签数...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据；采用所述预设的增强模型对所述有标签数据和所述无标签数据进行增强，得到有标签数据集和无标签数据集；通过所述训练后的分类模型对所述有标签数据集进行预测处理，得到所述增强前的有标签数据的第一预测结果和所述增强后的有标签数据的第二预测结果，并通过所述训练后的分类模型对所述无标签数据集进行预测处理，得到所述增强前的无标签数据的第三预测结果和所述增强后的无标签数据的第四预测结果；根据第一预测结果确定第一损失值，根据所述第二预测结果确定第二损失值，根据所述第三预测结果与所述第四预测结果确定第三损失值；基于所述第一损失值、所述第二损失值以及所述第三损失值，对所述预设的增强模型的模型参数进行优化，以得到完成训练的半监督模型。2.如权利要求1所述的数据处理方法，其特征在于，在所述通过所述训练后的分类模型对所述有标签数据集进行预测处理的步骤之前，所述数据处理方法还包括：通过所述有标签数据集对待训练的分类模型进行第一训练，得到第一分类模型，并通过所述无标签数据集对所述第一分类模型进行第二训练，得到训练后的分类模型。3.如权利要求1所述的数据处理方法，其特征在于，所述采用所述预设的增强模型对所述有标签数据和所述无标签数据进行增强，得到有标签数据集和无标签数据集，包括：采用所述预设的增强模型对所述有标签数据进行增强，得到增强后的有标签数据，并将增强前的有标签数据和所述增强后的有标签数据作为有标签数据集；采用所述预设的增强模型对所述无标签数据进行增强，得到增强后的无标签数据，并将增强前的无标签数据和所述增强后的无标签数据作为无标签数据集。4.如权利要求3所述的数据处理方法，其特征在于，所述采用所述预设的增强模型对所述有标签数据进行增强，得到增强后的有标签数据，包括：对任意两个增强前的有标签数据进行mixup处理，得到增强后的有标签数据，并对进行mixup处理的两个增强前的有标签数据对应的两个标签进行mixup处理，得到所述增强后的有标签数据的标签。5.如权利要求3所述的数据处理方法，其特征在于，所述采用所述预设的增强模型对所述无标签数据进行增强，得到增强后的无标签数据，包括：对增强前的无标签数据进行回译增强处理，得到增强后的无标签数据。6.如权利要求1所述的数据处理方法，其特征在于，在所述获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据的步骤之前，所述数据处理方法还包括：获取预设的标注数据集，所述标注数据集包括标注数据和标注数据对应的标注标签；对所述标注数据进行编码处理，得到所述标注数据对应的第一嵌入数据；对所述标注标签进行转化处理，得到所述标注标签的独热编码；将所述第一嵌入数据和所述独热编码作为有标签数据。7.如权利要求1所述的数据处理方法，其特征在于，在所述获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据的步骤之前，所述数据处理方法还包括：获取预设的未标...

【专利技术属性】
技术研发人员：刘汶霖，胡玉鹏，邢静怡，鹿存哲，
申请(专利权)人：武汉TCL集团工业研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人