数据处理方法、装置、计算设备及介质制造方法及图纸

技术编号:33705502 阅读:16 留言:0更新日期:2022-06-06 08:26
本申请提供一种数据处理方法、装置、计算设备及介质。本申请通过在获取到至少两种模态的样本特征数据以及样本特征数据的样本标签后,基于至少两种模态的样本特征数据以及样本特征数据的样本标签,训练第一多模态模型,得到第二多模态模型,基于至少两种模态的样本特征数据以及样本特征数据的标签进行数据增强,得到第一特征数据以及第一特征数据的第一标签,并通过第二多模态模型,对至少两种模态的无标签的第二特征数据进行处理,得到第二特征数据的第二标签,从而将第一特征数据和第一特征数据的第一标签、第二特征数据和第二特征数据的第二标签作为第二多模态模型的训练数据,实现数量数据的扩充,进而提高模型的训练效果。果。果。

【技术实现步骤摘要】
数据处理方法、装置、计算设备及介质


[0001]本说明书一个或多个实施例涉及机器学习
,尤其涉及一种数据处理方法、装置、计算设备及介质。

技术介绍

[0002]第五代移动通信技术(5th Generation Mobile Communication Technology,5G)作为具有高速率、低时延和大连接特点的新一代宽带移动通信技术,有助于推进多模态对话的发展。
[0003]然而,相关技术中,多模态算法模型需要通过大量的有标注的多模态数据训练得到,而多模态数据存在获取困难、标注成本高等问题,从而导致模型训练效果较差。

技术实现思路

[0004]有鉴于此,本说明书一个或多个实施例提供一种数据处理方法、装置、计算设备及介质。
[0005]为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
[0006]根据本说明书一个或多个实施例的第一方面,提出了一种数据处理方法,该方法包括:
[0007]获取至少两种模态的样本特征数据以及样本特征数据的样本标签;
[0008]基于至少两种模态的样本特征数据以及样本特征数据的样本标签,训练第一多模态模型,得到第二多模态模型;
[0009]对于任一种模态的样本特征数据,对样本特征数据中的任意两个样本特征数据进行加权求和,得到第一特征数据,并基于两个样本特征数据的样本标签,确定第一特征数据的第一标签;
[0010]通过第二多模态模型,对至少两种模态的无标签的第二特征数据进行处理,得到第二特征数据的第二标签,第一特征数据和第一特征数据的第一标签、第二特征数据和第二特征数据的第二标签用于训练第二多模态模型。
[0011]在一些实施例中,对样本特征数据中的任意两个样本特征数据进行加权求和,得到第一特征数据,并基于两个样本特征数据的样本标签,确定第一特征数据的第一标签,包括:
[0012]按照设定权重,对两个样本特征数据进行加权求和,得到第一特征数据,并将两个样本特征数据的样本标签确定为第一特征数据的第一标签;
[0013]其中,第一特征数据的两个第一标签对应有样本概率,样本概率基于设定权重确定。
[0014]在一些实施例中,该方法还包括:
[0015]通过第二多模态模型,获取第二标签的预测概率;
[0016]基于第二标签的预测概率,确定预测概率大于设定概率阈值的第二标签所对应的
目标第二特征数据;
[0017]通过第二多模态模型,对至少两种模态的无标签的第二特征数据进行处理,得到第二特征数据的第二标签之后,该方法还包括:
[0018]基于第一特征数据和第一特征数据的第一标签、目标第二特征数据和目标第二特征数据的第二标签,训练第二多模态模型,得到目标多模态模型。
[0019]在一些实施例中,基于第一特征数据和第一特征数据的第一标签、目标第二特征数据和目标第二特征数据的第二标签,训练第二多模态模型,得到目标多模态模型,包括:
[0020]基于第一特征数据和第一特征数据的第一标签,训练第二多模态模型,得到第三多模态模型;
[0021]基于目标第二特征数据和目标第二特征数据的第二标签,训练第三多模态模型,得到目标多模态模型。
[0022]在一些实施例中,基于第二标签的预测概率,确定预测概率大于设定概率阈值的第二标签所对应的目标第二特征数据之后,该方法还包括:
[0023]对于任一种模态的目标第二特征数据,对目标第二特征数据中的任意两个目标第二特征数据进行加权求和,得到第三特征数据,并基于两个目标第二特征数据的第二标签,确定第三特征数据的第三标签,第三特征数据和第三特征数据的第三标签用于训练第二多模态模型。
[0024]在一些实施例中,对于任一种模态的第二特征数据,对第二特征数据中的任意两个第二特征数据进行加权求和,得到第三特征数据,并基于两个第二特征数据的第二标签,确定第三特征数据的第三标签之后,该方法还包括:
[0025]基于第一特征数据和第一特征数据的第一标签、目标第二特征数据和目标第二特征数据的第二标签、第三特征数据和第三特征数据的第三标签,训练第二多模态模型,得到目标多模态模型。
[0026]在一些实施例中,基于第一特征数据和第一特征数据的第一标签、目标第二特征数据和目标第二特征数据的第二标签、第三特征数据和第三特征数据的第三标签,训练第二多模态模型,得到目标多模态模型,包括:
[0027]基于第一特征数据和第一特征数据的第一标签,训练第二多模态模型,得到第三多模态模型;
[0028]基于目标第二特征数据和目标第二特征数据的第二标签,训练第三多模态模型,得到第四多模态模型;
[0029]基于第三特征数据和第三特征数据的第三标签,训练第四多模态模型,得到目标多模态模型。
[0030]根据本说明书一个或多个实施例的第二方面,提出了一种数据处理装置,该装置包括:
[0031]获取模块,用于获取至少两种模态的样本特征数据以及样本特征数据的样本标签;
[0032]训练模块,用于基于至少两种模态的样本特征数据以及样本特征数据的样本标签,训练第一多模态模型,得到第二多模态模型;
[0033]第一处理模块,用于对于任一种模态的样本特征数据,对样本特征数据中的任意
两个样本特征数据进行加权求和,得到第一特征数据,并基于两个样本特征数据的样本标签,确定第一特征数据的第一标签;
[0034]第二处理模块,用于通过第二多模态模型,对至少两种模态的无标签的第二特征数据进行处理,得到第二特征数据的第二标签,第一特征数据和第一特征数据的第一标签、第二特征数据和第二特征数据的第二标签用于训练第二多模态模型。
[0035]在一些实施例中,第一处理模块,在用于对样本特征数据中的任意两个样本特征数据进行加权求和,得到第一特征数据,并基于两个样本特征数据的样本标签,确定第一特征数据的第一标签时,用于:
[0036]按照设定权重,对两个样本特征数据进行加权求和,得到第一特征数据,并将两个样本特征数据的样本标签确定为第一特征数据的第一标签;
[0037]其中,第一特征数据的两个第一标签对应有样本概率,样本概率基于设定权重确定。
[0038]在一些实施例中,第二处理模块,还用于通过第二多模态模型,获取第二标签的预测概率;
[0039]该装置还包括:
[0040]确定模块,用于基于第二标签的预测概率,确定预测概率大于设定概率阈值的第二标签所对应的目标第二特征数据;
[0041]训练模块,还用于基于第一特征数据和第一特征数据的第一标签、目标第二特征数据和目标第二特征数据的第二标签,训练第二多模态模型,得到目标多模态模型。
[0042]在一些实施例中,训练模块,在用于基于第一特征数据和第一特征数据的第一标签、目标第二特征数据和目标第二特征数据的第二标签,训练第二多模态模型,得到目标多模态模型时,用于:
[0043]基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取至少两种模态的样本特征数据以及所述样本特征数据的样本标签;基于所述至少两种模态的样本特征数据以及所述样本特征数据的样本标签,训练第一多模态模型,得到第二多模态模型;对于任一种模态的样本特征数据,对所述样本特征数据中的任意两个样本特征数据进行加权求和,得到第一特征数据,并基于所述两个样本特征数据的样本标签,确定所述第一特征数据的第一标签;通过所述第二多模态模型,对至少两种模态的无标签的第二特征数据进行处理,得到所述第二特征数据的第二标签,所述第一特征数据和所述第一特征数据的第一标签、所述第二特征数据和所述第二特征数据的第二标签用于训练所述第二多模态模型。2.根据权利要求1所述的方法,其特征在于,所述对所述样本特征数据中的任意两个样本特征数据进行加权求和,得到第一特征数据,并基于所述两个样本特征数据的样本标签,确定所述第一特征数据的第一标签,包括:按照设定权重,对所述两个样本特征数据进行加权求和,得到所述第一特征数据,并将所述两个样本特征数据的样本标签确定为所述第一特征数据的第一标签;其中,所述第一特征数据的两个第一标签对应有样本概率,所述样本概率基于所述设定权重确定。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过所述第二多模态模型,获取所述第二标签的预测概率;基于所述第二标签的预测概率,确定预测概率大于设定概率阈值的第二标签所对应的目标第二特征数据;所述通过所述第二多模态模型,对至少两种模态的无标签的第二特征数据进行处理,得到所述第二特征数据的第二标签之后,所述方法还包括:基于所述第一特征数据和所述第一特征数据的第一标签、所述目标第二特征数据和所述目标第二特征数据的第二标签,训练所述第二多模态模型,得到目标多模态模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一特征数据和所述第一特征数据的第一标签、所述目标第二特征数据和所述目标第二特征数据的第二标签,训练所述第二多模态模型,得到目标多模态模型,包括:基于所述第一特征数据和所述第一特征数据的第一标签,训练所述第二多模态模型,得到第三多模态模型;基于所述目标第二特征数据和所述目标第二特征数据的第二标签,训练所述第三多模态模型,得到所述目标多模态模型。5.根据权利要求3所述的方法,其特征在于,所述基于所述第二标签的预测概率,确定预测概率大于设定概率阈值的第二标签所对应的目标第二特征数据之后,所述方法还包括:对于任一种模态的目标第二特征数据,对所述目标第二特征数据中的任意两个目标第二特征数据进行加权...

【专利技术属性】
技术研发人员:林廷恩武玉川李永彬孙健
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1