数据处理方法及装置制造方法及图纸

技术编号:33132467 阅读:14 留言:0更新日期:2022-04-17 00:52
本申请提供数据处理方法及装置,所述方法包括:获取第一样本数据和与第一样本数据具有业务关联关系的第二样本数据;根据第一样本数据和第一样本标签训练获得第一业务模型,根据第二样本数据和第二样本标签训练获得第二业务模型;将第一样本数据输入至第二业务模型,并将第二样本数据输入至第一业务模型;获取第二业务模型输出的第一目标数据和第一业务模型输出的第二目标数据;基于第一目标数据和第二目标数据构建训练数据集。通过使用多阶段预训练,以及使用第一业务模型和第二业务模型进行标注,来解决部分标签缺失问题,和数据集之间定义不一致问题,扩充了目标业务模型的训练数据,提高目标业务模型的学习训练效果。提高目标业务模型的学习训练效果。提高目标业务模型的学习训练效果。

【技术实现步骤摘要】
数据处理方法及装置


[0001]本申请涉及人工智能
,特别涉及数据处理方法。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着人工智能技术的发展,多任务深度学习模型的应用越来越多。例如,在人脸识别领域下,可以基于识别鼻子、眼睛、发型等属性识别出人员身份。在多任务深度学习模型的训练过程中,多任务深度学习模型往往需要大量的具有所有标注标签的数据,但是由于具有所有标注标签的训练数据采集难度大,获取成本高的问题,使得多任务学习模型的训练数据的数量不足,导致模型训练困难、训练效果不好。因此,在多任务学习模型的训练数据数量少的情况下,如何扩充训练数据的数量,从而能够更好地对多任务学习模型进行训练、减少模型训练难度是目前亟需解决的问题。

技术实现思路

[0003]有鉴于此,本申请实施例提供了数据处理方法。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的训练数据不足、获取成本高的问题。
[0004]根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
[0005]获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;
[0006]根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;
[0007]将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;
[0008]获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;
[0009]基于所述第一目标数据和所述第二目标数据构建训练数据集。
[0010]根据本申请实施例的第二方面,提供了另一种数据处理方法,包括:
[0011]获取至少两个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;
[0012]根据每个初始样本集合训练对应的初始业务模型;
[0013]基于预设规则通过每个初始业务模型处理每个初始样本集合;
[0014]根据每个初始业务模型的处理结果构建训练数据集。
[0015]根据本申请实施例的第三方面,提供了一种数据处理装置,包括:
[0016]第一获取模块,被配置为获取第一样本数据和与所述第一样本数据具有业务关联
关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;
[0017]训练模块,被配置为根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;
[0018]输入模块,被配置为将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;
[0019]第二获取模块,被配置为获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;
[0020]构建模块,被配置为基于所述第一目标数据和所述第二目标数据构建训练数据集。
[0021]根据本申请实施例的第四方面,提供了另一种数据处理装置,包括:
[0022]获取模块,被配置为获取至少两个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;
[0023]训练模块,被配置为根据每个初始样本集合训练对应的初始业务模型;
[0024]处理模块,被配置为基于预设规则通过每个初始业务模型处理每个初始样本集合;
[0025]构建模块,被配置为根据每个初始业务模型的处理结果构建训练数据集。
[0026]根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述数据处理方法的步骤。
[0027]根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述数据处理方法的步骤。
[0028]本申请提供的数据处理方法,包括:获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;基于所述第一目标数据和所述第二目标数据构建训练数据集。
[0029]本申请一实施例实现了通过将第一样本数据输入至第二业务模型,获取第二业务模型输出的第一目标数据,使得第一目标数据既标注有第一样本标签又标注有第二样本标签,将第二样本数据输入至第一业务模型,获取第一业务模型输出的第二目标数据,使得第二目标数据既标注有第一样本标签又标注有第二样本标签,从而扩大目标业务模型的训练数据集,减少训练数据采集成本和模型训练难度。
附图说明
[0030]图1是本申请一实施例提供的一种数据处理方法的流程图;
[0031]图2是本申请一实施例提供的一种应用于文本识别模型的数据处理方法的处理流程图;
[0032]图3是本申请一实施例提供的第二业务模型的训练架构图;
[0033]图4是本申请一实施例提供的另一种数据处理方法的流程图;
[0034]图5是本申请一实施例提供的一种数据处理装置的结构示意图;
[0035]图6是本申请一实施例提供的另一种数据处理装置的结构示意图;
[0036]图7是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0037]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0038]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;基于所述第一目标数据和所述第二目标数据构建训练数据集。2.如权利要求1所述的数据处理方法,其特征在于,所述第二样本数据包括第二样本参考数据及所述第二样本参考数据对应的第二样本参考标签,第二样本目标数据及所述第二样本目标数据对应的第二样本目标标签;根据所述第二样本数据和所述第二样本标签训练获得第二业务模型,还包括:根据所述第二样本参考数据和所述第二样本参考标签训练获得第二预训练业务模型;根据所述第二样本目标数据和所述第二样本目标标签训练所述第二预训练业务模型,获得第二业务模型。3.如权利要求2所述的数据处理方法,其特征在于,在根据所述第二样本目标数据和所述第二样本目标标签训练所述第二预训练业务模型之前,所述方法还包括:接收参数调整指令;响应于所述参数调整指令调整所述第二预训练业务模型的目标参数。4.如权利要求3所述的数据处理方法,其特征在于,响应于所述参数调整指令调整所述第二预训练业务模型的目标参数,包括:响应于所述参数调整指令调整所述第二预训练业务模型的学习率参数,用以降低所述第二预训练业务模型的学习率。5.如权利要求1所述的数据处理方法,其特征在于,在基于所述第一目标数据和所述第二目标数据构建训练数据集之后,所述方法还包括:基于所述训练数据集训练获得目标业务模型。6.如权利要求5所述的数据处理方法,其特征在于,所述训练数据集包括目标数据,所述目标数据标注有第一样本标签和第二样本标签;基于所述训练数据集训练获得目标业务模型,包括:将所述目标数据输入至目标业务模型;获得所述目标业务模型输出的第一预测标签和第二预测标签;基于所述第一预测标签、第一样本标签、第二预测标签、第二样本标签计算模型损失值;根据所述模型损失值调整所述目标业务模型的模型参数,并继续训练所述目标业务模型,直至达到模型训练停止条件。7.如权利要求6所述的数据处理方法,其特征在于,达到模型训练停止条件,包括:模型损失值小于预设损失值阈值;和/或
训练轮次达到预设训练轮次。8.如权利要求1

7任意一项所述的数据处理方法,其特征在于,所述第一样本数据包括人脸图片;所述第一样本标签包括眼眶关键点坐标;所述第二样本数据包括人脸图片;所述第二样本标签包括瞳孔关键点坐标。9.一种数据处理方法,其特征在于,包括:获取至少三个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;根据每个初始样本集合训练对应的初始业务模型;基于预设规则通过每个初始业务模型处理每个初始样本集合;根据每个初始业务模型的处理结果构建训练数据集。10.如权利要求9所述的数据处理方法,其特征在于,根据每个初始样本集合训练对应的初始业务模型,包括:在所述至少三个初始样本集合中确定目标初始样本集合;根据所述目标初始样本集合训练对应的目标初始业务模型。11.如权利要求10所述的数据处理方法,其特征在于,对于任意...

【专利技术属性】
技术研发人员:王自越
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1