System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于重采样分布估计的股票预测模型在线集成方法及系统技术方案_技高网

基于重采样分布估计的股票预测模型在线集成方法及系统技术方案

技术编号:44528200 阅读:14 留言:0更新日期:2025-03-07 13:18
本发明专利技术提供了一种基于重采样分布估计的股票预测模型在线集成方法及系统,包括:获取基础模型预测结果和股票数据;基于循环神经网络的时序特征提取器,提取时间序列特征;基于特征相似性的重采样器,对每一条由时序特征、基础模型预测误差二者构成的样本进行重采样,为每一个样本分配一个重采样权重;在重采样集上计算时序特征和基础模型预测误差的联合概率分布参数,得到线性集成权重生成器;利用线性集成权重生成器生成在该数据上不同基础模型的组合权重,得到最终的模型集成预测结果;根据标签预测值和标签真实值计算预测损失,优化特征提取器和重采样器。本发明专利技术解决了训练数据集和预测数据集之间数据分布偏差导致的模型性能降低问题。

【技术实现步骤摘要】

本专利技术涉及股票预测,具体地,涉及一种基于重采样分布估计的股票预测模型在线集成方法及系统


技术介绍

1、股票市场作为金融市场的重要组成部分,其波动和走势对经济、企业和个人都具有重要影响。在这样的背景下,股票预测成为了许多投资者、交易员和分析师关注的焦点。通过对股票价格、交易量和其他相关因素进行预测,投资者可以做出更明智的投资决策,从而获得更好的投资回报。

2、然而,股票市场的复杂性和不确定性使得准确预测股票价格变得十分困难。目前已有许多预测方法被用于尝试解决这个问题,包括基于统计学的方法、机器学习方法以及深度学习方法。这些方法各有优劣,但在股票市场这种高度动态和不稳定的环境下,单个预测模型往往难以获得令人满意的结果。

3、一方面,现有的预测方法往往面临数据量庞大、特征复杂多变的挑战。股票市场的价格受多种因素影响,包括公司业绩、宏观经济因素、政策法规、市场情绪等。这些因素相互交织,导致数据的非线性和高度噪声化,因此传统的统计学方法往往难以捕捉到这种复杂性,而且容易出现过拟合或欠拟合的问题。

4、另一方面,使用单个预测模型还容易受到模型本身的限制和选择的特征的局限性。不同的预测模型有各自的适用范围和假设,而在现实股票市场中,市场行为和价格变化的模式可能是多样且动态变化的。因此,单一模型可能无法全面捕捉到市场的动态特征,导致预测准确性不高。

5、在这样的背景下,在线集成模型成为了一个备受关注的解决方案。在线集成模型通过将多个预测模型相结合,充分利用各个模型的优势,弥补各个模型的不足,不同的预测模型可能在不同的市场环境或时间段表现更好,而在线集成模型可以通过动态调整各个模型的权重或选择特定的模型来适应不同的市场状态,从而提高整体预测的鲁棒性和稳健性。同时,通过结合多个模型的预测结果,在线集成模型可以减少单个模型的过拟合风险,提高对未知数据的泛化能力,从而更好地适应未来的市场波动。

6、综上所述,市场上亟需一种能够克服单一模型预测方差较大问题,并能够提高预测进度的基于在线集成预测模型的股票预测方法及系统。

7、专利文献cn111062522a(申请号:cn201911217219.6)公开了一种基于时间序列链的股票预测方法,针对已有股票的历史数据即一条时间序列的情况,利用极值点的分布,尽可能多的获取有效子序列长度,通过时间序列链的查找,来获得一系列和待预测子序列相似并且在演化的子序列,通过对这些子序列的上涨或下跌的分析,来预测待预测子序列是否上涨,达到较高的预测正确率。然而该专利无法完全解决上述技术问题。


技术实现思路

1、针对现有技术中的缺陷,本专利技术的目的是提供一种基于重采样分布估计的股票预测模型在线集成方法及系统。

2、根据本专利技术提供的基于重采样分布估计的股票预测模型在线集成方法,包括:

3、步骤s1:获取基础模型预测结果和股票数据;

4、步骤s2:利用基于循环神经网络的时序特征提取器,提取时间序列特征;

5、步骤s3:利用基于特征相似性的重采样器,对每一条由时序特征、基础模型预测误差二者构成的样本进行重采样,为每一个样本分配一个重采样权重;

6、步骤s4:在重采样集上计算时序特征和基础模型预测误差的联合概率分布参数,并由此得到线性集成权重生成器;

7、步骤s5:利用线性集成权重生成器生成在该数据上不同基础模型的组合权重,由此得到最终的模型集成预测结果;

8、步骤s6:根据标签预测值和获取到的标签真实值计算预测损失,从而优化特征提取器和重采样器。

9、优选的,所述基于循环神经网络的时序特征提取器,读取时间序列数据后,将其输入神经网络,输出两个不同的特征向量,其一被用于输入重采样器进行重采样权重生成,另一向量与对应的基础模型预测误差构成样本,进行分布估计。

10、优选的,所述步骤s3包括:

11、步骤s3.1:对所有由时序特征、基础模型预测误差二者构成的样本,按时间划分为多个阶段;

12、步骤s3.2:对每个阶段计算阶段内的平均特征作为该时间段的总体特征;

13、步骤s3.3:对于每条样本,与所有阶段总体特征分别计算相似度,得到相似度变化趋势向量;

14、步骤s3.4:将相似度变化趋势向量作为样本的重采样特征,输入神经网络得到该样本的重采样权重。

15、优选的,所述线性集成权重生成器在与未来分布更接近的重采样集上进行计算,模型预测误差和提取的时序特征服从高维高斯分布,其概率分布的计算公式如下:

16、

17、其中,是样本高斯分布的均值估计向量,是样本高斯分布的协方差估计矩阵,an是第n个样本的权重值,xn是第n个样本向量,t为样本总量。

18、优选的,在生成线性集成权重时,需计算基础模型预测误差向量e的条件概率分布,并根据该分布求解最优权重,高维高斯分布下的条件概率分布计算公式如下:

19、

20、

21、其中,μ1|2是给定向量x2时,向量x1服从的高斯分布的均值向量,∑1|2是x1服从的高斯分布的协方差矩阵;

22、最优组合权重求解公式如下:

23、

24、其中,w*是最优组合权重向量,1是值全为1的向量,∑是模型预测误差服从的高斯分布中的协方差矩阵;

25、在本次预测阶段结束后,根据标签预测值和获取到的标签真实值计算均方误差作为损失,从而训练特征提取器和重采样器。

26、根据本专利技术提供的基于重采样分布估计的股票预测模型在线集成系统,包括:

27、模块m1:获取基础模型预测结果和股票数据;

28、模块m2:利用基于循环神经网络的时序特征提取器,提取时间序列特征;

29、模块m3:利用基于特征相似性的重采样器,对每一条由时序特征、基础模型预测误差二者构成的样本进行重采样,为每一个样本分配一个重采样权重;

30、模块m4:在重采样集上计算时序特征和基础模型预测误差的联合概率分布参数,并由此得到线性集成权重生成器;

31、模块m5:利用线性集成权重生成器生成在该数据上不同基础模型的组合权重,由此得到最终的模型集成预测结果;

32、模块m6:根据标签预测值和获取到的标签真实值计算预测损失,从而优化特征提取器和重采样器。

33、优选的,所述基于循环神经网络的时序特征提取器,读取时间序列数据后,将其输入神经网络,输出两个不同的特征向量,其一被用于输入重采样器进行重采样权重生成,另一向量与对应的基础模型预测误差构成样本,进行分布估计。

34、优选的,所述模块m3包括:

35、模块m3.1:对所有由时序特征、基础模型预测误差二者构成的样本,按时间划分为多个阶段;

36、模块m3.2:对每个阶段计算阶段内的平均特征作为该时间段的总体特征;

<本文档来自技高网...

【技术保护点】

1.一种基于重采样分布估计的股票预测模型在线集成方法,其特征在于,包括:

2.根据权利要求1所述的基于重采样分布估计的股票预测模型在线集成方法,其特征在于,所述基于循环神经网络的时序特征提取器,读取时间序列数据后,将其输入神经网络,输出两个不同的特征向量,其一被用于输入重采样器进行重采样权重生成,另一向量与对应的基础模型预测误差构成样本,进行分布估计。

3.根据权利要求1所述的基于重采样分布估计的股票预测模型在线集成方法,其特征在于,所述步骤S3包括:

4.根据权利要求1所述的基于重采样分布估计的股票预测模型在线集成方法,其特征在于,所述线性集成权重生成器在与未来分布更接近的重采样集上进行计算,模型预测误差和提取的时序特征服从高维高斯分布,其概率分布的计算公式如下:

5.根据权利要求4所述的基于重采样分布估计的股票预测模型在线集成方法,其特征在于,在生成线性集成权重时,需计算基础模型预测误差向量E的条件概率分布,并根据该分布求解最优权重,高维高斯分布下的条件概率分布计算公式如下:

6.一种基于重采样分布估计的股票预测模型在线集成系统,其特征在于,包括:

7.根据权利要求6所述的基于重采样分布估计的股票预测模型在线集成系统,其特征在于,所述基于循环神经网络的时序特征提取器,读取时间序列数据后,将其输入神经网络,输出两个不同的特征向量,其一被用于输入重采样器进行重采样权重生成,另一向量与对应的基础模型预测误差构成样本,进行分布估计。

8.根据权利要求6所述的基于重采样分布估计的股票预测模型在线集成系统,其特征在于,所述模块M3包括:

9.根据权利要求6所述的基于重采样分布估计的股票预测模型在线集成系统,其特征在于,所述线性集成权重生成器在与未来分布更接近的重采样集上进行计算,模型预测误差和提取的时序特征服从高维高斯分布,其概率分布的计算公式如下:

10.根据权利要求9所述的基于重采样分布估计的股票预测模型在线集成系统,其特征在于,在生成线性集成权重时,需计算基础模型预测误差向量E的条件概率分布,并根据该分布求解最优权重,高维高斯分布下的条件概率分布计算公式如下:

...

【技术特征摘要】

1.一种基于重采样分布估计的股票预测模型在线集成方法,其特征在于,包括:

2.根据权利要求1所述的基于重采样分布估计的股票预测模型在线集成方法,其特征在于,所述基于循环神经网络的时序特征提取器,读取时间序列数据后,将其输入神经网络,输出两个不同的特征向量,其一被用于输入重采样器进行重采样权重生成,另一向量与对应的基础模型预测误差构成样本,进行分布估计。

3.根据权利要求1所述的基于重采样分布估计的股票预测模型在线集成方法,其特征在于,所述步骤s3包括:

4.根据权利要求1所述的基于重采样分布估计的股票预测模型在线集成方法,其特征在于,所述线性集成权重生成器在与未来分布更接近的重采样集上进行计算,模型预测误差和提取的时序特征服从高维高斯分布,其概率分布的计算公式如下:

5.根据权利要求4所述的基于重采样分布估计的股票预测模型在线集成方法,其特征在于,在生成线性集成权重时,需计算基础模型预测误差向量e的条件概率分布,并根据该分布求解最优权重,高维高斯分布下的条件概率分布计算公式如下:

...

【专利技术属性】
技术研发人员:沈艳艳孙以恒赵立帆孔书铭陈雷曾雨祥
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1