The embodiment of the invention provides a data prediction method, a device and an electronic device, belonging to the computer field. According to the initial eigenvectors to be measured and the ensemble tree model to be trained, the overlapping eigenvectors corresponding to the initial eigenvectors to be measured can be obtained. The ensemble tree model is trained according to the training samples and the preset ensemble tree fitting algorithm. The training samples include the initial eigenvectors of multiple sets of samples and the initial eigenvectors of multiple sets of samples. Then the initial eigenvectors and overlapping eigenvectors are combined to get the target eigenvectors. Finally, the prediction results are obtained according to the target eigenvectors and the pre-trained linear regression model. The linear regression model is calculated according to the training samples and the preset linear regression model. Trained by law. By adopting the data prediction method provided by the embodiment of the invention, the overlapping factor, i.e. the overlapping characteristic vector, among the various influencing factors can be obtained, thereby improving the accuracy of data prediction.
【技术实现步骤摘要】
一种数据预测方法、装置及电子设备
本专利技术涉及计算机领域,特别涉及一种数据预测方法、装置及电子设备。
技术介绍
随着计算机技术的发展,数据的统计和处理越来越方便,很多行业需要借助计算机技术和统计的数据来预测数据。例如,通过统计已经上映的电影的票房和影响票房的各种因素,来预测一部将要上映的电影的票房。或者,通过统计已经上映的电视剧的播放量和影响播放量的各种因素,来预测一部将要上映的电视剧的播放量。目前,主要通过线性回归模型预测数据。例如,在预测电影票房时,通过统计相关已上映的电影的票房和影响这些票房的因素(例如,演职人员的热度值、演职人员过去作品的票房、电影的档期或题材等),先确定具体的线性回归模型,然后将需要预测票房的电影的因素对应的参数输入线性回归模型中,从而预测该电影的票房。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:通过线性回归模型预测数据时,在考虑各影响因素时,各影响因素通常是相对独立的,各影响因素之间的相互关系(可以称为交叠因素)没有体现,这样导致预测的结果不准确。
技术实现思路
本专利技术实施例的目的在于提供一种数据预测方法、装置及电子设备,以提高数据预测的精度。具体技术方案如下:第一方面,提供了一种数据预测方法,所述方法包括:根据待测初始特征向量和预先训练的集成树模型,得到所述待测初始特征向量对应的交叠特征向量,其中,所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;拼接所述待测初始特征向量和所述交叠特征向量,得到目标特征向量 ...
【技术保护点】
1.一种数据预测方法,其特征在于,所述方法包括:根据待测初始特征向量和预先训练的集成树模型,得到所述待测初始特征向量对应的交叠特征向量,其中,所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;拼接所述待测初始特征向量和所述交叠特征向量,得到目标特征向量;根据所述目标特征向量和预先训练的线性回归模型,得到预测结果,其中,所述线性回归模型是根据所述训练样本和预设的线性回归模型算法训练得到的。
【技术特征摘要】
1.一种数据预测方法,其特征在于,所述方法包括:根据待测初始特征向量和预先训练的集成树模型,得到所述待测初始特征向量对应的交叠特征向量,其中,所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;拼接所述待测初始特征向量和所述交叠特征向量,得到目标特征向量;根据所述目标特征向量和预先训练的线性回归模型,得到预测结果,其中,所述线性回归模型是根据所述训练样本和预设的线性回归模型算法训练得到的。2.根据权利要求1所述的方法,其特征在于,所述集成树模型的训练过程包括:获取训练样本,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;根据所述训练样本和预设的集成树模型拟合算法,训练得到集成树模型。3.根据权利要求1或2所述的方法,其特征在于,所述集成树模型为梯度提高集成树模型。4.根据权利要求1或2所述的方法,其特征在于,所述线性回归模型的训练过程包括:获取所述训练样本,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;根据所述多组样本初始特征向量和所述集成树模型,得到所述多组样本初始特征向量对应的各样本交叠特征向量;拼接所述多组样本初始特征向量和对应的样本交叠特征向量,得到多组样本目标特征向量;根据所述多组样本目标特征向量和对应的样本结果,以及预设的线性回归模型算法,训练得到线性回归模型。5.根据权利要求4所述的方法,其特征在于,所述预设的线性回归模型算法为最小二乘法。6.一种数据预测装置,其特征在于,所述装置包括:交叠特征模块,用于根据待测初始特征向量和预先训练的集成树模型,得到所述待测初始特征向量对应的交叠特征向量,其中,所述集成树模型是根据训练样本和预设的集成树...
【专利技术属性】
技术研发人员:赵知纬,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。