数据处理方法及装置制造方法及图纸

技术编号：33132467 阅读：14 留言：0更新日期：2022-04-17 00:52

本申请提供数据处理方法及装置，所述方法包括：获取第一样本数据和与第一样本数据具有业务关联关系的第二样本数据；根据第一样本数据和第一样本标签训练获得第一业务模型，根据第二样本数据和第二样本标签训练获得第二业务模型；将第一样本数据输入至第二业务模型，并将第二样本数据输入至第一业务模型；获取第二业务模型输出的第一目标数据和第一业务模型输出的第二目标数据；基于第一目标数据和第二目标数据构建训练数据集。通过使用多阶段预训练，以及使用第一业务模型和第二业务模型进行标注，来解决部分标签缺失问题，和数据集之间定义不一致问题，扩充了目标业务模型的训练数据，提高目标业务模型的学习训练效果。提高目标业务模型的学习训练效果。提高目标业务模型的学习训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法及装置

[0001]本申请涉及人工智能
，特别涉及数据处理方法。本申请同时涉及数据处理装置，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着人工智能技术的发展，多任务深度学习模型的应用越来越多。例如，在人脸识别领域下，可以基于识别鼻子、眼睛、发型等属性识别出人员身份。在多任务深度学习模型的训练过程中，多任务深度学习模型往往需要大量的具有所有标注标签的数据，但是由于具有所有标注标签的训练数据采集难度大，获取成本高的问题，使得多任务学习模型的训练数据的数量不足，导致模型训练困难、训练效果不好。因此，在多任务学习模型的训练数据数量少的情况下，如何扩充训练数据的数量，从而能够更好地对多任务学习模型进行训练、减少模型训练难度是目前亟需解决的问题。

技术实现思路

[0003]有鉴于此，本申请实施例提供了数据处理方法。本申请同时涉及数据处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的训练数据不足、获取成本高的问题。
[0004]根据本申请实施例的第一方面，提供了一种数据处理方法，包括：
[0005]获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据，其中，所述第一样本数据标注有第一样本标签，所述第二样本数据标注有第二样本标签；
[0006]根据所述第一样本数据和所述第一样本标签训练获得第一业务模型，根据所述第二样本数据和所述第二样本标签训练获得第二业务模型；
[0007]将所述第一样本数据输入至所述第二...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据，其中，所述第一样本数据标注有第一样本标签，所述第二样本数据标注有第二样本标签；根据所述第一样本数据和所述第一样本标签训练获得第一业务模型，根据所述第二样本数据和所述第二样本标签训练获得第二业务模型；将所述第一样本数据输入至所述第二业务模型，并将所述第二样本数据输入至所述第一业务模型；获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据，其中，所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签；基于所述第一目标数据和所述第二目标数据构建训练数据集。2.如权利要求1所述的数据处理方法，其特征在于，所述第二样本数据包括第二样本参考数据及所述第二样本参考数据对应的第二样本参考标签，第二样本目标数据及所述第二样本目标数据对应的第二样本目标标签；根据所述第二样本数据和所述第二样本标签训练获得第二业务模型，还包括：根据所述第二样本参考数据和所述第二样本参考标签训练获得第二预训练业务模型；根据所述第二样本目标数据和所述第二样本目标标签训练所述第二预训练业务模型，获得第二业务模型。3.如权利要求2所述的数据处理方法，其特征在于，在根据所述第二样本目标数据和所述第二样本目标标签训练所述第二预训练业务模型之前，所述方法还包括：接收参数调整指令；响应于所述参数调整指令调整所述第二预训练业务模型的目标参数。4.如权利要求3所述的数据处理方法，其特征在于，响应于所述参数调整指令调整所述第二预训练业务模型的目标参数，包括：响应于所述参数调整指令调整所述第二预训练业务模型的学习率参数，用以降低所述第二预训练业务模型的学习率。5.如权利要求1所述的数据处理方法，其特征在于，在基于所述第一目标数据和所述第二目标数据构建训练数据集之后，所述方法还包括：基于所述训练数据集训练获得目标业务模型。6.如权利要求5所述的数据处理方法，其特征在于，所述训练数据集包括目标数据，所述目标数据标注有第一样本标签和第二样本标签；基于所述训练数据集训练获得目标业务模型，包括：将所述目标数据输入至目标业务模型；获得所述目标业务模型输出的第一预测标签和第二预测标签；基于所述第一预测标签、第一样本标签、第二预测标签、第二样本标签计算模型损失值；根据所述模型损失值调整所述目标业务模型的模型参数，并继续训练所述目标业务模型，直至达到模型训练停止条件。7.如权利要求6所述的数据处理方法，其特征在于，达到模型训练停止条件，包括：模型损失值小于预设损失值阈值；和/或
训练轮次达到预设训练轮次。8.如权利要求1
‑
7任意一项所述的数据处理方法，其特征在于，所述第一样本数据包括人脸图片；所述第一样本标签包括眼眶关键点坐标；所述第二样本数据包括人脸图片；所述第二样本标签包括瞳孔关键点坐标。9.一种数据处理方法，其特征在于，包括：获取至少三个初始样本集合，其中，每个初始样本集合间具有业务关联关系，每个初始样本集合中的样本数据标注有对应的训练标签；根据每个初始样本集合训练对应的初始业务模型；基于预设规则通过每个初始业务模型处理每个初始样本集合；根据每个初始业务模型的处理结果构建训练数据集。10.如权利要求9所述的数据处理方法，其特征在于，根据每个初始样本集合训练对应的初始业务模型，包括：在所述至少三个初始样本集合中确定目标初始样本集合；根据所述目标初始样本集合训练对应的目标初始业务模型。11.如权利要求10所述的数据处理方法，其特征在于，对于任意...

【专利技术属性】
技术研发人员：王自越，
申请(专利权)人：上海哔哩哔哩科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人