【技术实现步骤摘要】
训练机器学习模型的方法、预测方法、计算设备和介质
[0001]本公开概括而言涉及机器学习领域,更具体地,涉及一种用于训练针对目标对象的机器学习模型的方法、预测目标对象的销售额的方法、计算设备和计算机可读存储介质。
技术介绍
[0002]在进行机器学习模型训练时,需要尽可能减少数据处理时间、高效地读取数据来进行训练。通常的做法是将原始数据处理为训练数据,存储在一组可顺序读取的标准格式文件中。
[0003]这样,在利用时序型数据的深度学习算法,如LSTM(Long Short
‑
term Memory,长短时记忆)算法等,进行模型训练时,需要将同一主键(目标对象)的多条时序原始数据先处理再打平,作为不同的特征合并为一条训练数据,并且将多条训练数据合并存储为诸如TFRecord之类的格式文件。
[0004]然而,当数据量非常大时,将时序原始数据处理打平以生成训练数据的操作非常耗时。尤其是,时序原始数据随着时间的推移会不断增加,因此每次训练前都针对包括新增数据的全量数据从头开始做耗时的打平操作,花费 ...
【技术保护点】
【技术特征摘要】
1.一种用于训练针对目标对象的机器学习模型的方法,包括:获取多个目标对象在多个单位时间的时序数据集合,所述时序数据集合包括每个目标对象在每个单位时间的多个特征值;沿主键方向对所述时序数据集合分段以产生多个主键分段,其中每个主键分段包括所述多个目标对象中的至少两个目标对象的时序数据;沿时间方向对每个主键分段进行分段以产生多个特征数据集文件,其中每个特征数据集文件包括所述至少两个目标对象在一个第一时间段的时序数据,并且所述第一时间段包括多个单位时间;以及根据第二时间段内的特征数据集文件得到对所述机器学习模型进行训练的训练数据集,其中所述第二时间段包括多个第一时间段。2.如权利要求1所述的方法,还包括:对于每个主键分段,获取所述主键分段所包括的至少两个目标对象在增量第一时间段的增量时序数据;为所述增量时序数据产生增量特征数据集文件;以及利用所述增量特征数据集文件替换所述第二时间段内的特征数据集文件以作为下一训练数据集对所述机器学习模型进行迭代训练。3.如权利要求1或2所述的方法,还包括:存储所述多个特征数据集文件的第一元数据信息,所述第一元数据信息指示每个主键分段和所述主键分段所包含的至少两个目标对象之间的对应关系;在每个主键分段下存储所述主键分段的第二元数据信息,所述第二元数据信息指示所述主键分段下的第一时间段与特征数据集文件之间的对应关系;以及在所述每个主键分段下存储所述主键分段下的特征数据集文件。4.如权利要求3所述的方法,其中在所述第一元数据信息中,所述多个主键分段随机排列。5.如权利要求3所述的方法,其中在所述第一元数据信息中,所述多个主键分段基于主键分段的顺序排列。6.如权利要求1或2所述的方法,还包括:以特征值为行,主键为...
【专利技术属性】
技术研发人员:张卿,袁云滔,王姜,潘雄飞,
申请(专利权)人:胜斗士上海科技技术发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。