数据处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:21142050 阅读:27 留言:0更新日期:2019-05-18 05:25
本公开涉及一种数据处理方法、装置、存储介质及电子设备,用以解决现有数学模型训练过程效率不高的技术问题。该方法包括:获取样本数据的特征参数,该样本数据是数据集合中的带有标签的数据;根据样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,模型输入参数是部分或者全部样本数据的特征参数;根据数据集合中无标签数据的特征参数与模型输入参数之间的相似度,从数据集合中选取用于训练数学模型的目标样本数据;根据建模参数对数学模型进行初始化,并根据目标样本数据对数学模型进行训练。

【技术实现步骤摘要】
数据处理方法、装置、存储介质及电子设备
本公开涉及机器学习领域,具体地,涉及一种数据处理方法、装置、存储介质及电子设备。
技术介绍
机器学习技术广泛应用于各个领域,在某些特殊的应用场景中,由于带标签的样本数据获取成本高、周期长等因素,致使项目面临着样本数量不足的问题。在现有技术中,通常采用如下方法在小样本数据下完成模型训练:1、通过meta-learning的方式。在该方式中,事先从与本次问题相近的若干问题中获得先验知识,并以此作为初始建模参数对模型进行训练。然而,寻找与本次问题相近的问题较为困难,且依然基于现有的少量样本数据进行模型训练,所得到的模型泛化能力不佳。2、通过人工标注数据扩充样本数量。该方式依赖于人工随机选取样本数据并进行数据标注,数据选取的目的性不强,对于提升模型训练效果的作用可能不大。
技术实现思路
本公开的目的是提供一种数据处理方法、装置、存储介质及电子设备,用以解决现有数学模型训练过程效率不高的技术问题。为了实现上述目的,本公开第一方面提供一种数据处理方法,所述方法包括:获取样本数据的特征参数,所述样本数据是数据集合中的带有标签的数据;根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,所述模型输入参数是部分或者全部所述样本数据的特征参数;根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据;根据所述建模参数对所述数学模型进行初始化,并根据所述目标样本数据对所述数学模型进行训练。可选地,所述根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,包括:设定一初始建模参数θ1;根据所述初始建模参数θ1和所述样本数据的特征参数θ2通过公式进行迭代更新,并确定满足如下目标函数的参数θ′:其中,θ=[θ1,θ2],θ′=[θ1′,θ2′],θ1′为本次迭代计算得到的建模参数,θ2′为本次迭代选用的特征参数,α为超参数,L(fθ)表示当前迭代在参数θ下的Loss值;将满足所述目标函数的θ1′和θ2′分别作为所述满足预设条件的建模参数以及模型输入参数。可选地,所述根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据,包括:计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息;将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据。可选地,所述计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息,包括:通过如下公式计算任一所述无标签数据的特征参数与模型输入参数中任一所述样本数据的特征参数的距离信息dist(X,Y):其中,X为所述无标签数据的特征参数,Y为所述样本数据的特征参数,n为特征参数的长度。可选地,所述将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据,所述方法还包括:将所述样本数据的标签作为与所述样本数据的特征参数之间的距离信息小于第一预设距离阈值的无标签数据的标签;将与所述样本数据的特征参数之间的距离信息大于第一预设距离阈值且小于第二预设阈值的无标签数据推荐给用户,以提醒用户对该无标签数据添加标签。本公开第二方面提供一种数据处理装置,所述装置包括:特征参数获取模块,用于获取样本数据的特征参数,所述样本数据是数据集合中的带有标签的数据;建模参数确定模块,用于根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,所述模型输入参数是部分或者全部所述样本数据的特征参数;目标样本选取模块,用于根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据;数学模型训练模块,用于根据所述建模参数对所述数学模型进行初始化,并根据所述目标样本数据对所述数学模型进行训练。可选地,所述建模参数确定模块包括:参数设定子模块,用于设定一初始建模参数θ1;参数更新子模块,用于根据所述初始建模参数θ1和所述样本数据的特征参数θ2通过公式进行迭代更新,并确定满足如下目标函数的参数θ′:其中,θ=[θ1,θ2],θ′=[θ1′,θ2′],θ1′为本次迭代计算得到的建模参数,θ2′为本次迭代选用的特征参数,α为超参数,L(fθ)表示当前迭代在参数θ下的Loss值;参数确定子模块,用于将满足所述目标函数的θ1′和θ2′分别作为所述满足预设条件的建模参数以及模型输入参数。可选地,所述目标样本选取模块包括:距离计算子模块,用于计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息;样本确定子模块,用于将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据。可选地,所述距离计算子模块用于通过如下公式计算任一所述无标签数据的特征参数与模型输入参数中任一所述样本数据的特征参数的距离信息dist(X,Y):其中,X为所述无标签数据的特征参数,Y为所述样本数据的特征参数,n为特征参数的长度。可选地,所述装置还包括:第一标记模块,用于将所述样本数据的标签作为与所述样本数据的特征参数之间的距离信息小于第一预设距离阈值的无标签数据的标签;第二标记模块,用于将与所述样本数据的特征参数之间的距离信息大于第一预设距离阈值且小于第二预设阈值的无标签数据推荐给用户,以提醒用户对该无标签数据添加标签。本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的数据处理方法的步骤。本公开第四方面提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的数据处理方法的步骤。根据本公开提供的技术方案,从带有标签的样本数据中获取特征参数对数学模型进行预训练,即使带有标签的样本数量较少,也可以得到初步满足任务要求的数学模型的建模参数以及模型输入参数,然后根据无标签数据的特征参数与模型输入参数的相似度大小选取用于训练数学模型的目标样本数据,以扩充用于训练数学模型的样本数量。值得说明的是,所得到的目标样本数据对训练当前数学模型的针对性较强,因而利用目标样本数据训练得到的数学模型泛化能力较好。并且,根据预训练得到的建模参数对数学模型进行初始化,可以加快数学模型的收敛速度,提高了数学模型的训练效率。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是本公开实施例提供的一种数据处理方法的流程图;图2是本公开实施例提供的一种数据处理方法的流程图;图3是本公开实施例提供的一种数据处理装置的框图;图4是本公开实施例提供的一种数据处理装置的框图;图5是本公开实施例提供的一种电子设备的框图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。图1是本公开实施例提供的一种数据处本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取样本数据的特征参数,所述样本数据是数据集合中的带有标签的数据;根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,所述模型输入参数是部分或者全部所述样本数据的特征参数;根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据;根据所述建模参数对所述数学模型进行初始化,并根据所述目标样本数据对所述数学模型进行训练。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取样本数据的特征参数,所述样本数据是数据集合中的带有标签的数据;根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,所述模型输入参数是部分或者全部所述样本数据的特征参数;根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据;根据所述建模参数对所述数学模型进行初始化,并根据所述目标样本数据对所述数学模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,包括:设定一初始建模参数θ1;根据所述初始建模参数θ1和所述样本数据的特征参数θ2通过公式进行迭代更新,并确定满足如下目标函数的参数θ′:其中,θ=[θ1,θ2],θ′=[θ1′,θ2′],θ1′为本次迭代计算得到的建模参数,θ2′为本次迭代选用的特征参数,α为超参数,L(fθ)表示当前迭代在参数θ下的Loss值;将满足所述目标函数的θ1′和θ2′分别作为所述满足预设条件的建模参数以及模型输入参数。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据,包括:计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息;将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据。4.根据权利要求3所述的方法,其特征在于,所述计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息,包括:通过如下公式计算任一所述无标签数据的特征参数与模型输入参数中任一所述样本数据的特征参数的距离信息dist(X,Y):其中,X为所述无标签数据的特征参数,Y为所述样本数据的特征参数,n为特征参数的长度。5.根据权利要求3所述的方法,其特征在于,所述将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据,所述方法还包括:将所述样本数据的标签作为与所...

【专利技术属性】
技术研发人员:侯广健
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1