数据处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号：21142050 阅读：27 留言：0更新日期：2019-05-18 05:25

本公开涉及一种数据处理方法、装置、存储介质及电子设备，用以解决现有数学模型训练过程效率不高的技术问题。该方法包括：获取样本数据的特征参数，该样本数据是数据集合中的带有标签的数据；根据样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，模型输入参数是部分或者全部样本数据的特征参数；根据数据集合中无标签数据的特征参数与模型输入参数之间的相似度，从数据集合中选取用于训练数学模型的目标样本数据；根据建模参数对数学模型进行初始化，并根据目标样本数据对数学模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、存储介质及电子设备
本公开涉及机器学习领域，具体地，涉及一种数据处理方法、装置、存储介质及电子设备。
技术介绍
机器学习技术广泛应用于各个领域，在某些特殊的应用场景中，由于带标签的样本数据获取成本高、周期长等因素，致使项目面临着样本数量不足的问题。在现有技术中，通常采用如下方法在小样本数据下完成模型训练：1、通过meta-learning的方式。在该方式中，事先从与本次问题相近的若干问题中获得先验知识，并以此作为初始建模参数对模型进行训练。然而，寻找与本次问题相近的问题较为困难，且依然基于现有的少量样本数据进行模型训练，所得到的模型泛化能力不佳。2、通过人工标注数据扩充样本数量。该方式依赖于人工随机选取样本数据并进行数据标注，数据选取的目的性不强，对于提升模型训练效果的作用可能不大。
技术实现思路
本公开的目的是提供一种数据处理方法、装置、存储介质及电子设备，用以解决现有数学模型训练过程效率不高的技术问题。为了实现上述目的，本公开第一方面提供一种数据处理方法，所述方法包括：获取样本数据的特征参数，所述样本数据是数据集合中的带有标签的数据；根据所述样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，所述模型输入参数是部分或者全部所述样本数据的特征参数；根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据；根据所述建模参数对所述数学模型进行初始化，并根据所述目标样本数据对所述数学模型进行训练。可选地，所述根据所述样本数据的特征参数预训练数学模型，...

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：获取样本数据的特征参数，所述样本数据是数据集合中的带有标签的数据；根据所述样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，所述模型输入参数是部分或者全部所述样本数据的特征参数；根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据；根据所述建模参数对所述数学模型进行初始化，并根据所述目标样本数据对所述数学模型进行训练。

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：获取样本数据的特征参数，所述样本数据是数据集合中的带有标签的数据；根据所述样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，所述模型输入参数是部分或者全部所述样本数据的特征参数；根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据；根据所述建模参数对所述数学模型进行初始化，并根据所述目标样本数据对所述数学模型进行训练。2.根据权利要求1所述的方法，其特征在于，所述根据所述样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，包括：设定一初始建模参数θ1；根据所述初始建模参数θ1和所述样本数据的特征参数θ2通过公式进行迭代更新，并确定满足如下目标函数的参数θ′：其中，θ＝[θ1，θ2]，θ′＝[θ1′，θ2′]，θ1′为本次迭代计算得到的建模参数，θ2′为本次迭代选用的特征参数，α为超参数，L(fθ)表示当前迭代在参数θ下的Loss值；将满足所述目标函数的θ1′和θ2′分别作为所述满足预设条件的建模参数以及模型输入参数。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据，包括：计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息；将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据。4.根据权利要求3所述的方法，其特征在于，所述计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息，包括：通过如下公式计算任一所述无标签数据的特征参数与模型输入参数中任一所述样本数据的特征参数的距离信息dist(X，Y)：其中，X为所述无标签数据的特征参数，Y为所述样本数据的特征参数，n为特征参数的长度。5.根据权利要求3所述的方法，其特征在于，所述将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据，所述方法还包括：将所述样本数据的标签作为与所...

【专利技术属性】
技术研发人员：侯广健，
申请(专利权)人：东软集团股份有限公司，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人