生成行业基本面组合预测模型的方法和装置制造方法及图纸

技术编号:16919986 阅读:34 留言:0更新日期:2017-12-31 15:16
本发明专利技术公开了一种生成行业基本面组合预测模型的方法和装置。该方法包括:获取与目标行业的基本面相关的历史数据并进行预处理;选择经预处理的历史数据的至少一部分作为训练数据集和验证数据集;利用训练数据集来训练多个机器学习模型;利用验证数据集来评估该多个机器学习模型的预测效果;以及根据预测效果来确定该多个机器学习模型作为组合预测模型时所对应的权重。本发明专利技术通过融合多个机器学习模型来增加预测的稳定性,并且不需要人工干预,时间效率较高。

【技术实现步骤摘要】
生成行业基本面组合预测模型的方法和装置
本专利技术属于计算机数据处理领域,尤其涉及一种生成行业基本面组合预测模型的方法和装置。
技术介绍
对于金融行业,投资经理和分析师们一直以来借助各种类型的数据和指标去分析和判断宏观经济的走势和不同行业未来的景气程度,从而做出相关的投资决策和投资建议。随着大数据时代的到来,各种数据的分享和收集逐渐由机器代替,数据的数量和种类变得越来越丰富,更新越来越频繁。传统的分析师们很大程度上是基于个人的经验和认知来预测行业基本面。这需要分析师花费大量的时间去调查行业数据,一旦调查的数据改变,则需要重复进行调查。每一次更新预测都需要重新调查当时的数据,时间效率较低。这种分析预测带有相当程度的主观判断,可能受分析师的主观情感影响,准确度因人而异而无法得到保证。另外,一个重大不足在于其对于突发数据的反应和更新速度较慢。对此,分析师们开始需要借助量化模型来处理海量的行业经济数据,帮助他们迅速识别和判断未来的行业经济趋势。量化基本面分析法(Quanta-mental)是指将基本面和量化结合起来做投资决策分析的研究方法。这种方法遵循基本面的价值逻辑,以各类基本面指标作为数据载体,结合对市场的价值逻辑理解,来构建相关的量化模型。传统的量化模型使用单一模型,诸如线性回归,对收集到的数据与预测的目标之间建立线性模型,然后再对目标做出预测。这种方法的缺点在于:其对于数据集的要求较高,处理的方法和依赖的模型相对单一,不同的预测技术之间未能融合,并且忽略了模型随时间的变化,也忽略了数据集与目标之间可能存在的高维联系。因此,亟需一种改进的预测模型对行业基本面进行预测。
技术实现思路
本专利技术针对上述问题,提出一种通过融合多个机器学习模型来改进预测模型的方法和装置。本专利技术的第一方面提出了一种生成行业基本面组合预测模型的方法,其特征在于,包括以下步骤:获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;对所述历史数据进行预处理;选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;利用所述训练数据集来训练多个机器学习模型;利用所述验证数据集来评估所述多个机器学习模型的预测效果;根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。本专利技术的第二方面提出了一种有形的计算机可读存储介质,该介质包括指令,当该指令被执行时,引起计算设备至少用于:获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;对所述历史数据进行预处理;选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;利用所述训练数据集来训练多个机器学习模型;利用所述验证数据集来评估所述多个机器学习模型的预测效果;根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。本专利技术的第三方面提出了一种生成行业基本面组合预测模型的装置,其特征在于,包括:数据获取单元,其被配置为获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;数据预处理单元,其被配置为对所述历史数据进行预处理;数据选择单元,其被配置为选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;模型训练单元,其被配置为利用所述训练数据集来训练多个机器学习模型;以及模型预测单元,其被配置为利用所述验证数据集来评估所述多个机器学习模型的预测效果,根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。上述方法、计算机可读存储介质和装置可以包括以下方面中的一个或多个:在一个方面中,使用滚动时间窗口的方式来更新经预处理的历史数据,并且将经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到所述组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。在一个方面中,对所述历史数据进行预处理包括以下各项中的一项或多项:数据填充;数据补齐;数据标准化。在一个方面中,选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。在一个方面中,在利用所述训练数据集进行训练之后并在利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。在一个方面中,所述多个机器学习模型包括以下各项中的一项或多项:随机森林模型;长短期记忆模型;多元线性回归模型。在一个方面中,根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重包括:根据预定准则来选择所述多个机器学习模型中的两个或多个机器学习模型作为所述组合预测模型,并确定所述两个或多个机器学习模型作为所述组合预测模型时所对应的权重。在一个方面中,所述组合预测模型为线性融合模型。在一个方面中,所述多个机器学习模型作为所述线性融合模型时所对应的权重通过线性回归来确定。在一个方面中,该指令在被执行时引起所述计算设备选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。在一个方面中,该指令在被执行时引起所述计算设备在利用所述训练数据集进行训练之后并在利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。在一个方面中,所述数据预处理单元被配置为使用滚动时间窗口的方式来更新经预处理的历史数据,所述模型预测单元被配置为以经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到所述组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。在一个方面中,所述数据预处理单元被配置为进行包括以下各项中的一项或多项的预处理:数据填充;数据补齐;数据标准化。在一个方面中,所述数据选择单元被配置为:选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。在一个方面中,所述模型训练单元还包括参数调整单元,所述参数调整单元被配置为:在所述模型训练单元利用所述训练数据集进行训练之后并在所述模型预测单元利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。在一个方面中,所述模型预测单元被配置为:根据预定准则来选择所述多个机器学习模型中的两个或多个机器学习模型作为所述组合预测模型,并确定所述两个或多个机器学习模型作为所述组合预测模型时所对应的权重。在一个方面中,所述模型预测单元被配置为:通过线性回归来确定所述多个机器学习模型作为所述线性融合模型时所对应的权重。本专利技术结合产业链上下游去分析影响行业基本面的指标本文档来自技高网
...
生成行业基本面组合预测模型的方法和装置

【技术保护点】
一种生成行业基本面组合预测模型的方法,其特征在于,包括以下步骤:获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;对所述历史数据进行预处理;选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;利用所述训练数据集来训练多个机器学习模型;利用所述验证数据集来评估所述多个机器学习模型的预测效果;根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。

【技术特征摘要】
1.一种生成行业基本面组合预测模型的方法,其特征在于,包括以下步骤:获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;对所述历史数据进行预处理;选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;利用所述训练数据集来训练多个机器学习模型;利用所述验证数据集来评估所述多个机器学习模型的预测效果;根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。2.如权利要求1所述的方法,其特征在于,还包括:使用滚动时间窗口的方式来更新经预处理的历史数据,并且将经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到所述组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。3.如权利要求1所述的方法,其特征在于,对所述历史数据进行预处理包括以下各项中的一项或多项:数据填充;数据补齐;数据标准化。4.如权利要求1所述的方法,其特征在于,还包括:选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。5.如权利要求4所述的方法,其特征在于,还包括:在利用所述训练数据集进行训练之后并在利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。6.如权利要求1所述的方法,其特征在于,所述多个机器学习模型包括以下各项中的一项或多项:随机森林模型;长短期记忆模型;多元线性回归模型。7.如权利要求1或5所述的方法,其特征在于,根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重包括:根据预定准则来选择所述多个机器学习模型中的两个或多个机器学习模型作为所述组合预测模型,并确定所述两个或多个机器学习模型作为所述组合预测模型时所对应的权重。8.如权利要求1所述的方法,其特征在于,所述组合预测模型为线性融合模型。9.如权利要求8所述的方法,其特征在于,所述多个机器学习模型作为所述线性融合模型时所对应的权重通过线性回归来确定。10.一种有形的计算机可读存储介质,该介质包括指令,该指令在被执行时引起计算设备至少用于:获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;对所述历史数据进行预处理;选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;利用所述训练数据集来训练多个机器学习模型;利用所述验证数据集来评估所述多个机器学习模型的预测效果;根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。11.如权利要求10所述的计算机可读存储介质,其特征在于,该指令在被执行时引起所述计算设备使用滚动时间窗口的方式来更新与目标行业的基本面相关的历史数据,并且将经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到所述组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。12.如权利要求10所述的计算机可读存储介质,其特征在于,对所述历史数据进行预处理包括以下各项中的一项或多项:数据填充;数据补齐;数据标准化。13.如权利要求10所述的计算机可读存储介质,其特征在于,该指令在被执行时引起所述计算设备选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所...

【专利技术属性】
技术研发人员:李嘉璐吴龙刚
申请(专利权)人:众安信息技术服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1