模型训练方法与设备、预测方法与设备、数据处理设备、介质技术

技术编号:21301059 阅读:26 留言:0更新日期:2019-06-12 08:18
本发明专利技术公开了模型训练方法与设备、预测方法与设备、数据处理设备、介质。一种网络模型训练方法包括:获取历史样本的原始数据信息;对原始数据信息进行特征提取以得到历史特征,所述历史特征经过变换处理,得到历史特征向量;利用历史特征向量来生成模拟特征;将模拟特征与历史特征结合作为训练特征集,经过特征变换后来训练深度神经网络模型。通过利用真实的历史数据,经由深度学习模型生成模拟数据,解决了样本缺少的问题,并通过结合历史数据与模拟数据来训练深度神经网络模型以便对数据进行预测,能够有效提高数据预测的准确率。

Model Training Method and Equipment, Prediction Method and Equipment, Data Processing Equipment and Media

The invention discloses model training method and equipment, prediction method and equipment, data processing equipment and media. A network model training method includes: acquiring the original data information of historical samples; extracting features from the original data information to obtain historical features, which are transformed to obtain historical feature vectors; generating simulation features by using historical feature vectors; combining simulation features with historical features as training feature sets, and training after feature transformation. Depth neural network model. By using real historical data and generating simulation data through in-depth learning model, the problem of lack of samples is solved. By combining historical data and simulation data, the deep neural network model is trained to predict data, which can effectively improve the accuracy of data prediction.

【技术实现步骤摘要】
模型训练方法与设备、预测方法与设备、数据处理设备、介质
本专利技术涉及数据处理技术,尤其涉及模型训练方法与设备、预测方法与设备、数据处理设备、介质。
技术介绍
当前,数据预测技术应用得越来越广泛。但是,在历史样本过少的情况下,如何训练得到合适的深度神经网络模型,以便准确地进行数据预测,是一个亟待解决的技术问题。例如,用于在电影上映前对电影票房进行预测的电影票房预测技术也逐渐开展,以便为视频类公司在电影版权的采买方面提供参考和支持,从而便于预估回报率,有效地控制投资的风险;另外,还可以为电影市场的营销和推广提供参考和支持,例如可以针对不同的票房规模进行不同方式的广告和营销,以便有效地控制成本;再者,预测的结果也可以辅助进行影业数据分析,例如可以用于挖掘可能热门的电影类型或风格等。但是,由于每年上映的电影数量有限,剔除年代久远、没有参考价值的数据之后,可供参考的数据量很少,导致难以应用深度的、复杂的模型。而且,由于电影上映前的信息具有很大的不确定性,甚至可能缺失,且电影票房受口碑等难以量化的因素的影响很大,所以现有的电影票房预测模型大多使用传统的结构简单的回归模型或树模型,如线性回归、GBDT等。而这些现有模型的学习能力差,使得预测准确性有待提高,导致预测的结果难以让人满意。因此,如何能够在例如电影数据的样本过少的情况下,更准确地预测电影票房,是另一个亟需解决的技术问题。
技术实现思路
为了解决以上问题之一,本专利技术提供了一种模型训练方法与设备、预测方法与设备、数据处理设备、介质。专利技术人认为,如何解决数据样本过少的问题,是数据预测技术的关键。因此,本专利技术考虑利用历史数据,通过特征生成模型来生成扩充的数据特征,并且利用历史数据和扩充的数据特征来训练复杂的深度神经网络(DeepNeuralNetworks,以下简称DNN)模型用于数据预测。根据本专利技术的一个示例性实施例,提供一种电影票房预测方法,包括:数据获取步骤,获取历史样本的原始数据信息;特征提取变换步骤,对所述原始数据信息进行特征提取以得到历史特征,所述历史特征经过变换处理,得到历史特征向量;模拟特征生成步骤,利用所述历史特征向量来生成模拟特征;以及网络模型训练步骤,将所述模拟特征与所述历史特征结合作为训练样本的特征集,经过特征变换后来训练深度神经网络模型。可选地,所述深度神经网络模型的历史样本包括历史电影、历史图像、历史文本数据、历史数字数据、和/或由前者中的至少两种任意混合的数据。可选地,所述生成模型包括变分自编码器。可选地,所述网络模型训练步骤包括:将所述训练样本的特征集之中的历史样本的特定数据作为目标值Y,所述训练样本的特征集之中的除特定数据之外的训练特征作为特征值X,对特征值X中的指定特征以及对所述目标值Y分别进行变换处理,然后经由所述深度神经网络模型,通过优化目标函数得到所述深度神经网络模型的所需参数,由此得到经过训练的深度神经网络。可选地,所述历史样本包括历史电影,一个历史电影的原始数据信息包括该电影的票房数据、该电影的上映基础信息、该电影的与社交口碑相关的数据、与该电影有关的以前作品的相关数据。可选地,所述特定数据包括历史电影的票房数据。可选地,利用所述历史特征向量来训练生成模型,生成模拟特征向量,对所述模拟特征向量进行反变换处理,以生成模拟特征。可选地,所述变换处理包括对数变换和归一化操作,所述反变换处理包括反归一化操作和指数变换。根据本专利技术的一个示例性实施例,提供一种数据预测方法,包括:利用通过上述的深度神经网络模型训练方法之一训练的深度神经网络模型,进行数据预测,以得到数据预测结果。可选地,要预测的数据为一个新电影的票房,数据预测结果为该新电影的票房预测结果。可选地,所述票房预测结果包括预测一部新电影在上映后特定时间段内的票房和/或总票房。可选地,所述数据预测步骤包括:利用多个数据源获取一个新电影的部分原始数据信息;对于该新电影的所述部分原始数据信息进行特征提取和变换处理,得到该电影的特征向量;该电影的特征向量经由训练后的所述深度神经网络模型,得到所述深度神经网络模型的输出值,对该输出值进行反变换处理,得到该新电影的票房预测结果。根据本专利技术的一个示例性实施例,提供一种深度神经网络模型训练设备,包括:数据获取装置,被配置用于获取历史样本的原始数据信息;特征提取变换装置,被配置用于对所述原始数据信息进行特征提取以得到历史特征,所述历史特征经过变换处理,得到历史特征向量;模拟特征生成装置,被配置用于利用所述历史特征向量来生成模拟特征;以及网络模型训练装置,被配置用于将所述模拟特征与所述历史特征结合作为训练样本的特征集,经过特征变换后来训练深度神经网络模型。可选地,所述深度神经网络模型的历史样本包括历史电影、历史图像、历史文本数据、历史数字数据、和/或由前者中的至少两种任意混合的数据。可选地,所述生成模型包括变分自编码器。可选地,所述网络模型训练装置通过以下操作来进行模型训练:将所述训练样本的特征集之中的历史样本的特定数据作为目标值Y,所述训练样本的特征集之中的除特定数据之外的训练特征作为特征值X,对特征值X中的指定特征以及对所述目标值Y分别进行变换处理,然后经由所述深度神经网络模型,通过优化目标函数得到所述深度神经网络模型的所需参数,由此得到经过训练的深度神经网络。可选地,所述历史样本包括历史电影,一个历史电影的原始数据信息包括该电影的票房数据、该电影的上映基础信息、该电影的与社交口碑相关的数据、与该电影有关的以前作品的相关数据。可选地,所述特定数据包括历史电影的票房数据。可选地,所述模拟特征生成装置利用所述历史特征向量来训练生成模型,生成模拟特征向量,对所述模拟特征向量进行反变换处理,以生成模拟特征。可选地,所述变换处理包括对数变换和归一化操作,所述反变换处理包括反归一化操作和指数变换。根据本专利技术的一个示例性实施例,提供一种数据预测设备,其特征在于,该数据预测设备被配置用于:利用通过上述的深度神经网络模型训练设备之一训练出的深度神经网络模型,进行数据预测,以得到数据预测结果。可选地,要预测的数据为一个新电影的票房,数据预测结果为该新电影的票房预测结果。可选地,所述票房预测结果包括预测一部新电影在上映后特定时间段内的票房和/或总票房。可选地,所述票房预测设备通过执行以下操作来进行票房预测:利用多个数据源获取该新电影的原始数据信息;对于该新电影的这些原始数据信息进行特征提取和变换处理,得到该电影的特征向量;该电影的特征向量经由训练后的所述深度神经网络模型,得到所述深度神经网络模型的输出值,对该输出值进行反变换处理,得到该新电影的票房预测结果。根据本专利技术的又一个示例性实施例,提供一种数据处理设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述方法之一。根据本专利技术的再一个示例性实施例,提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被处理器执行时,使所述处理器执行上述方法之一。本专利技术通过利用真实的历史数据,通过用于生成模拟数据特征的生成模型来生成大量的模拟数据,扩充了样本的数量,解决了样本缺少的问题。进一步地,通过结合历史数据与模拟数据作为训练数据来训练复杂的本文档来自技高网...

【技术保护点】
1.一种深度神经网络模型训练方法,其特征在于,包括:数据获取步骤,获取历史样本的原始数据信息;特征提取变换步骤,对所述原始数据信息进行特征提取以得到历史特征,所述历史特征经过变换处理,得到历史特征向量;模拟特征生成步骤,利用所述历史特征向量来生成模拟特征;以及网络模型训练步骤,将所述模拟特征与所述历史特征结合作为训练样本的特征集,经过特征变换后来训练深度神经网络模型。

【技术特征摘要】
1.一种深度神经网络模型训练方法,其特征在于,包括:数据获取步骤,获取历史样本的原始数据信息;特征提取变换步骤,对所述原始数据信息进行特征提取以得到历史特征,所述历史特征经过变换处理,得到历史特征向量;模拟特征生成步骤,利用所述历史特征向量来生成模拟特征;以及网络模型训练步骤,将所述模拟特征与所述历史特征结合作为训练样本的特征集,经过特征变换后来训练深度神经网络模型。2.如权利要求1所述的深度神经网络模型训练方法,其特征在于,所述深度神经网络模型的历史样本包括历史电影、历史图像、历史文本数据、历史数字数据、和/或由前者中的至少两种任意混合的数据。3.如权利要求1所述的深度神经网络模型训练方法,其特征在于,所述生成模型包括变分自编码器。4.如权利要求1所述的深度神经网络模型训练方法,其特征在于,所述网络模型训练步骤包括:将所述训练样本的特征集之中的历史样本的特定数据作为目标值Y,所述训练样本的特征集之中的除特定数据之外的训练特征作为特征值X,对特征值X中的指定特征以及对所述目标值Y分别进行变换处理,然后经由所述深度神经网络模型,通过优化目标函数得到所述深度神经网络模型的所需参数,由此得到经过训练的深度神经网络。5.如权利要求4所述的深度神经网络模型训练方法,其特征在于,所述历史样本包括历史电影,一个历史电影的原始数据信息包括该电影的票房数据、该电影的上映基础信息、该电影的与社交口碑相关的数据、与该电影有关的以前作品的相关数据。6.如权利要求5所述的深度神经网络模型训练方法,其特征在于,所述特定数据包括历史电影的票房数据。7.如权利要求1所述的深度神经网络模型训练方法,其特征在于,利用所述历史特征向量来训练生成模型,生成模拟特征向量,对所述模拟特征向量进行反变换处理,以生成模拟特征。8.如权利要求1或7所述的深度神经网络模型训练方法,其特征在于,所述变换处理包括对数变换和归一化操作,所述反变换处理包括反归一化操作和指数变换。9.一种数据预测方法,包括:利用通过权利要求1~8中的任意一项所述的深度神经网络模型训练方法训练的深度神经网络模型,进行数据预测,以得到数据预测结果。10.如权利要求9所述的数据预测方法,其特征在于,要预测的数据为一个新电影的票房,数据预测结果为该新电影的票房预测结果。11.如权利要求10所述的数据预测方法,其特征在于,所述票房预测结果包括预测一部新电影在上映后特定时间段内的票房和/或总票房。12.如权利要求10所述的数据预测方法,其特征在于,所述数据预测步骤包括:利用多个数据源获取一个新电影的部分原始数据信息;对于该新电影的所述部分原始数据信息进行特征提取和变换处理,得到该电影的特征向量;该电影的特征向量经由训练后的所述深度神经网络模型,得到所述深度神经网络模型的输出值,对该输出值进行反变换处理,得到该新电影的票房预测结果。13.一种深度神经网络模型训练设备,其特征在于,包括:数据获取装置,被配置用于获取历史样本的原始数据信息;特征提取变换装置,被配置用于对所述原始数据信息进行特征提取以得到历史特征,所述历史特征经过变换处理,得到历史特征向量;模拟特征生成装置...

【专利技术属性】
技术研发人员:石秋萍
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1