一种数据预测方法、装置及电子设备制造方法及图纸

技术编号:18732254 阅读:43 留言:0更新日期:2018-08-22 02:59
本发明专利技术实施例提供了一种数据预测方法、装置及电子设备,属于计算机领域。可以根据待测初始特征向量和预先训练的集成树模型,得到待测初始特征向量对应的交叠特征向量,其中,集成树模型是根据训练样本和预设的集成树拟合算法训练得到的,训练样本包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果,然后拼接待测初始特征向量和交叠特征向量,得到目标特征向量,最后根据目标特征向量和预先训练的线性回归模型,得到预测结果,其中,线性回归模型是根据训练样本和预设的线性回归模型算法训练得到的。采用本发明专利技术实施例提供的数据预测方法,可以得到各影响因素之间的交叠因素,即交叠特征向量,从而提高数据预测的精度。

Data prediction method, device and electronic equipment

The embodiment of the invention provides a data prediction method, a device and an electronic device, belonging to the computer field. According to the initial eigenvectors to be measured and the ensemble tree model to be trained, the overlapping eigenvectors corresponding to the initial eigenvectors to be measured can be obtained. The ensemble tree model is trained according to the training samples and the preset ensemble tree fitting algorithm. The training samples include the initial eigenvectors of multiple sets of samples and the initial eigenvectors of multiple sets of samples. Then the initial eigenvectors and overlapping eigenvectors are combined to get the target eigenvectors. Finally, the prediction results are obtained according to the target eigenvectors and the pre-trained linear regression model. The linear regression model is calculated according to the training samples and the preset linear regression model. Trained by law. By adopting the data prediction method provided by the embodiment of the invention, the overlapping factor, i.e. the overlapping characteristic vector, among the various influencing factors can be obtained, thereby improving the accuracy of data prediction.

【技术实现步骤摘要】
一种数据预测方法、装置及电子设备
本专利技术涉及计算机领域,特别涉及一种数据预测方法、装置及电子设备。
技术介绍
随着计算机技术的发展,数据的统计和处理越来越方便,很多行业需要借助计算机技术和统计的数据来预测数据。例如,通过统计已经上映的电影的票房和影响票房的各种因素,来预测一部将要上映的电影的票房。或者,通过统计已经上映的电视剧的播放量和影响播放量的各种因素,来预测一部将要上映的电视剧的播放量。目前,主要通过线性回归模型预测数据。例如,在预测电影票房时,通过统计相关已上映的电影的票房和影响这些票房的因素(例如,演职人员的热度值、演职人员过去作品的票房、电影的档期或题材等),先确定具体的线性回归模型,然后将需要预测票房的电影的因素对应的参数输入线性回归模型中,从而预测该电影的票房。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:通过线性回归模型预测数据时,在考虑各影响因素时,各影响因素通常是相对独立的,各影响因素之间的相互关系(可以称为交叠因素)没有体现,这样导致预测的结果不准确。
技术实现思路
本专利技术实施例的目的在于提供一种数据预测方法、装置及电子设备,以提高数据预测的精度。具体技术方案如下:第一方面,提供了一种数据预测方法,所述方法包括:根据待测初始特征向量和预先训练的集成树模型,得到所述待测初始特征向量对应的交叠特征向量,其中,所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;拼接所述待测初始特征向量和所述交叠特征向量,得到目标特征向量;根据所述目标特征向量和预先训练的线性回归模型,得到预测结果,其中,所述线性回归模型是根据所述训练样本和预设的线性回归模型算法训练得到的。可选的,所述集成树模型的训练过程包括:获取训练样本,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;根据所述训练样本和预设的集成树模型拟合算法,训练得到集成树模型。可选的,所述集成树模型为梯度提高集成树模型。可选的,所述线性回归模型的训练过程包括:获取所述训练样本,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;根据所述多组样本初始特征向量和所述集成树模型,得到所述多组样本初始特征向量对应的各样本交叠特征向量;拼接所述多组样本初始特征向量和对应的样本交叠特征向量,得到多组样本目标特征向量;根据所述多组样本目标特征向量和对应的样本结果,以及预设的线性回归模型算法,训练得到线性回归模型。可选的,所述预设的线性回归模型算法为最小二乘法。第二方面,提供了一种数据预测装置,所述装置包括:交叠特征模块,用于根据待测初始特征向量和预先训练的集成树模型,得到所述待测初始特征向量对应的交叠特征向量,其中,所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;拼接模块,用于拼接所述待测初始特征向量和所述交叠特征向量,得到目标特征向量;预测模块,用于根据所述目标特征向量和预先训练的线性回归模型,得到预测结果,其中,所述线性回归模型是根据所述训练样本和预设的线性回归模型算法训练得到的。可选的,所述装置还包括:第一获取模块,用于获取训练样本,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;第一训练模块,用于根据所述训练样本和预设的集成树模型拟合算法,训练得到集成树模型。可选的,所述集成树模型为梯度提高集成树模型。可选的,所述装置还包括:第二获取模块,用于获取所述训练样本,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;第一确定模块,用于根据所述多组样本初始特征向量和所述集成树模型,得到所述多组样本初始特征向量对应的各样本交叠特征向量;第二确定模块,用于拼接所述多组样本初始特征向量和对应的样本交叠特征向量,得到多组样本目标特征向量;第二训练模块,用于根据所述多组样本目标特征向量和对应的样本结果,以及预设的线性回归模型算法,训练得到线性回归模型。可选的,所述预设的线性回归模型算法为最小二乘法。第三方面,一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序时,实现如上述第一方面所述的数据预测方法的步骤。第四方面,为了达到上述目的,本专利技术实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现如上述第一方面所述的数据预测方法的步骤。本专利技术实施例提供了一种数据预测方法、装置及电子设备,可以根据待测初始特征向量和预先训练的集成树模型,得到待测初始特征向量对应的交叠特征向量,其中,集成树模型是根据训练样本和预设的集成树拟合算法训练得到的,训练样本包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果,然后拼接待测初始特征向量和交叠特征向量,得到目标特征向量,最后根据目标特征向量和预先训练的线性回归模型,得到预测结果,其中,线性回归模型是根据训练样本和预设的线性回归模型算法训练得到的。本专利技术实施例提供的数据预测方法,可以得到各影响因素之间的交叠因素,即交叠特征向量,从而提高数据预测的精度。当然,实施本专利技术的任一产品或方法不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例提供的一种数据预测方法的流程图;图2为本专利技术实施例提供的一种CART模型;图3为本专利技术实施例提供的一种集成树模型的训练流程图;图4为本专利技术实施例提供的一种线性回归模型的训练流程图;图5为本专利技术实施例提供的一种数据预测的装置结构示意图;图6为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。本专利技术实施例公开了一种数据预测方法、装置及电子设备,本专利技术实施例的执行主体可以是终端,以下结合预测电影票房为例分别进行详细说明。如图1所示,图1为本专利技术实施例的一种数据预测方法的流程图,包括如下步骤:步骤110,根据待测初始特征向量和预先训练的集成树模型,得到待测初始特征向量对应的交叠特征向量。其中,集成树模型可以是根据训练样本和预设的集成树拟合算法训练得到的,训练样本可以包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果。在本专利技术实施例中,集成树模型包含了一系列的CART(ClassificationAndRegressionTree,分类回归树),每棵CART的节点都是依照每个样本的初始特征向量的取值和集成树模型生成的。如图2所示,图中的“Yesormissing”表示“是或不确定”,“No”表示“不是”,叶子节点的编号或叶子节点对应的数值可以用于表示交叠特征值。假设一部电影具有“导演前作票房总和<3亿,以及该影片是以IMAX(Im本文档来自技高网...

【技术保护点】
1.一种数据预测方法,其特征在于,所述方法包括:根据待测初始特征向量和预先训练的集成树模型,得到所述待测初始特征向量对应的交叠特征向量,其中,所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;拼接所述待测初始特征向量和所述交叠特征向量,得到目标特征向量;根据所述目标特征向量和预先训练的线性回归模型,得到预测结果,其中,所述线性回归模型是根据所述训练样本和预设的线性回归模型算法训练得到的。

【技术特征摘要】
1.一种数据预测方法,其特征在于,所述方法包括:根据待测初始特征向量和预先训练的集成树模型,得到所述待测初始特征向量对应的交叠特征向量,其中,所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;拼接所述待测初始特征向量和所述交叠特征向量,得到目标特征向量;根据所述目标特征向量和预先训练的线性回归模型,得到预测结果,其中,所述线性回归模型是根据所述训练样本和预设的线性回归模型算法训练得到的。2.根据权利要求1所述的方法,其特征在于,所述集成树模型的训练过程包括:获取训练样本,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;根据所述训练样本和预设的集成树模型拟合算法,训练得到集成树模型。3.根据权利要求1或2所述的方法,其特征在于,所述集成树模型为梯度提高集成树模型。4.根据权利要求1或2所述的方法,其特征在于,所述线性回归模型的训练过程包括:获取所述训练样本,所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果;根据所述多组样本初始特征向量和所述集成树模型,得到所述多组样本初始特征向量对应的各样本交叠特征向量;拼接所述多组样本初始特征向量和对应的样本交叠特征向量,得到多组样本目标特征向量;根据所述多组样本目标特征向量和对应的样本结果,以及预设的线性回归模型算法,训练得到线性回归模型。5.根据权利要求4所述的方法,其特征在于,所述预设的线性回归模型算法为最小二乘法。6.一种数据预测装置,其特征在于,所述装置包括:交叠特征模块,用于根据待测初始特征向量和预先训练的集成树模型,得到所述待测初始特征向量对应的交叠特征向量,其中,所述集成树模型是根据训练样本和预设的集成树...

【专利技术属性】
技术研发人员:赵知纬
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1