当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于深度强化学习的金融时序数据预测方法技术

技术编号:20161284 阅读:38 留言:0更新日期:2019-01-19 00:14
本发明专利技术公开了一种基于深度强化学习的金融时序数据预测方法。本方法包括三个主要的子系统:数据处理子系统,此子系统的功能是对从WindAPI获取到的原始数据进行数据处理;特征提取子系统,此子系统的功能是构造一个深度神经网络来提取数据特征;强化学习子系统,此子系统的功能是基于Actor‑Critic算法,构造策略网络和评估网络,分别进行交易动作的选取与评价,然后不断迭代更新来保证整个系统获取到市场最新的动态信息,并根据获取到的状态信息作出最优的交易动作,最终获取较好的交易效果。本发明专利技术能够通过金融市场的一些基本信息,不断去学习这个复杂的金融市场,及时捕获可能获利的交易动作,实现盈利目的。

【技术实现步骤摘要】
一种基于深度强化学习的金融时序数据预测方法
本专利技术涉及深度学习和强化学习领域,更具体地,涉及一种基于深度强化学习的金融时序数据预测方法。
技术介绍
在全球化盛行的今天,金融市场达到空前的规模,投资领域因此涌现出一大批优秀的分析员依靠个人经验和一些主观分析判断来预测资产未来价格,但是传统的交易员操作显然有些低效,因此人们也会借助计算机进行量化研究,代替重复的一些人为工作,这时也就相继出现传统量化投资领域的算法模型,其中也包括了很多结合机器学习做的一些研究,像众所周知的贝叶斯、支持向量机、循环神经网络等。但是往往传统的那些研究方法都存在考虑的指标单一、人为操作的模型预测泛化能力不够等问题,而传统的机器学习算法应用在金融时序数据也同样存在比较明显的缺陷,很多模型特别是深度神经网络在金融时序数据的预测问题上会导致过拟合。金融市场是很变幻莫测的,非平稳性质是金融时序数据普遍存在的一个特性,这让很多模型预测的时候也表现出不稳定的状况。近些年,随着阿尔法围棋大败各大围棋高手后,强度学习进入了全新火热的探索阶段,同样金融领域也不例外,但是不同的算法效果自然也有所差异,其总体架构如下图1所示,本专利技术的强化学习算法也可用图1表示。强化学习系列也有很多的算法,大致可以分为基于值函数(value-based)的算法和基于策略(policy-based)的算法。基于值函数的算法典型代表为Q-Learning,其在金融领域的应用是将市场状态定义出来,然后根据ε-greedy策略去选择交易动作,接着观察环境以及动作得到的奖励,进而更新维护Q值表,以此来达到优化交易动作选择的目的,但这种算法的问题在于当状态或者动作的维度很大时,难以用Q表的形式来维护,而且非常难收敛。基于策略的算法典型代表为Policy-Gradient,其在金融领域的应用同样是定义市场状态,然后根据已有策略选择最有利的动作,通过环境反馈得到该动作的奖励,接着反向更新策略算法,这样不断更新使得选择的动作更有可能获利,这种方法虽然可以适用于高维度的动作空间,但是基于策略的算法往往收敛到的是局部的最优解而并非全局最优,而且回合更新导致基于策略的算法更新相对低效。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷,提供一种一种基于深度强化学习的金融时序数据预测方法。为解决上述技术问题,本专利技术的技术方案如下:一种基于深度强化学习的金融时序数据预测方法,包括以下步骤:S1:从外部系统的WindAPI下载原始的金融时序数据;S2:构建数据处理子系统,将下载后的原始的金融时序数据进行数据预处理,并输出预处理后的数据;S3:构建特征提取子系统,将预处理后的数据进行深度特征的提取,输出提取到的深度特征信息;S4:构建强化学习子系统,将深度特征信息与交易环境进行比对,进行强化学习,输出交易动作;S5:根据输入到系统中的数据产生的交易动作,实时调整金融市场的目标仓位,达到交易目的。优选地,所述S1中的金融时序数据包括价量信息与宏观信息;所述价量信息包括:开盘价、收盘价、最高价、最低价、成交量;所述宏观信息包括:市盈率、市净率、市销率、市现率、流通市值、总市值、毛利率、每股净资产、资产负债率、汇率。优选地,所述S2中数据预处理包括计算技术指标、数据缺失值的检查与处理、数据标准化、异常值处理,具体步骤如下:S21:接收外部系统WindAPI输出的原始的金融时序向量vraw进行数据缺失值的检查,并对缺失值进行标记;S22:利用原始的金融时序向量vraw,根据价量信息与宏观信息计算出对应的技术指标信息;S23:设时间滑动窗口为window=600,即每600分钟计算一次,每次计算会滑动一分钟,计算滑动窗口中vraw每个维度的均值μi和标准差σi,然后分别对每一维度进行标准化其中vi是vraw每一维度未经过变换的值,v'i是每一维度经过标准化处理后新的值,将每一维度的信息都标准化为均值为0,方差为1的数据;S24:使用箱线图法确定异常值,并将这些异常值剔除,用S23中计算得到的均值μi来代替异常值;S25:将S23中计算得到的均值μi填补S21中被标记的缺失值;S26:经过S21至S25对原始向量vraw的预处理得到市场状态特征向量vf作为数据处理子系统的输出。优选地,所述技术指标信息包括:指数平滑移动平均线MACD、平均趋向指数ADX、顺势指标CCI、相对强弱指数RSI、布林带BOOL、平均真实波动ATR、5日指数均线EMA_5、20日指数均线EMA_20、60日指数均线EMA_60、120日指数均线EMA_120、价格变化率ROC、随机动量指数SMI、集散量AD、动量线MOM、价格震荡百分比PPO、威廉变异离散量WVAD。优选地,步骤S4强化学习子系统的处理步骤是:S41:接收特征提取子系统的输出vdeep并作为本子系统的输入,即状态向量vstate;S42:构建动作网络,以状态向量vstate作为输入向量,经过第一层的128个隐藏层神经元的全连接层,再做Relu变换,接着输出一个128维中间向量vam1到第二层有128个隐藏层神经元的全连接层,再进行一次Relu变换,最后将第二层隐藏层输出的中间向量vam2经过一层3个神经元的全连接层,输出一个3维的动作向量表示目标仓位,这三维分别表示仓位为减仓1手,仓位为无仓位和仓位为加仓1手的概率p,再由softmax变换得出最终的交易动作a=A(s),此处的s指的是市场的状态,A(s)指的是经过动作网络变换得到的映射值,即交易动作;S43:执行S42中的交易动作a后,得到市场环境根据当前状态的反馈即奖励信息r以及市场环境接下来的下一状态s';S44:构造动作网络的损失函数loss_actor=-log(p)*td_error,其中,p为步骤S42中对应选取到的动作a的概率,td_error为从评估网络得到的时序差分误差,动作网络的优化目标为最小化损失函数loss_actor;S45:构建评估网络,同样是以状态向量vstate作为输入向量,经过第一层128个隐藏层神经元的全连接层,再做Relu变换,接着输出一个128维中间向量vcm1到第二层有128个隐藏层神经元的全连接层,再进行一次Relu变换,最后将第二层隐藏层输出的中间向量vcm2经过一层1个神经元的全连接层,最后输出一个1维的价值变量v=Q(s),此处的s指的是市场的状态,Q(s)指的是经过评估网络变换得到的映射值,即表征价值的一个值,也称为Q值,表征的是该交易动作的价值;S46:求时序差分误差td_error=r+γ*Q(s')-Q(s),这里的Q(s)表示状态s输入到评估网络得到的Q值,而Q(s')则表示下一状态s'输入到评估网络得到的Q值,这里的γ指的是未来奖励衰减权重,表征的是越未来的奖励考虑的重要程度;S47:构造评估网络的损失函数loss_critic=td_error2,而评估网络的优化目标则为最小化损失函数loss_critic。优选地,步骤S3所述的特征提取子系统具体流程为接收数据处理子系统预处理后的市场状态特征向量vf作为输入向量,经过特征提取子系统的神经网络进行深度特征的提取,得到的深度特征vdeep,作为特征提取子系统的输出。与现有技术相比,本专利技术技术方本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的金融时序数据预测方法,其特征在于:包括以下步骤:S1:从外部系统的WindAPI下载原始的金融时序数据;S2:构建数据处理子系统,将下载后的原始的金融时序数据进行数据预处理,并输出预处理后的数据;S3:构建特征提取子系统,将预处理后的数据进行深度特征的提取,输出提取到的深度特征信息;S4:构建强化学习子系统,将深度特征信息与交易环境进行比对,进行强化学习,输出交易动作;S5:根据输入到系统中的数据产生的交易动作,实时调整金融市场的目标仓位,达到交易目的。

【技术特征摘要】
1.一种基于深度强化学习的金融时序数据预测方法,其特征在于:包括以下步骤:S1:从外部系统的WindAPI下载原始的金融时序数据;S2:构建数据处理子系统,将下载后的原始的金融时序数据进行数据预处理,并输出预处理后的数据;S3:构建特征提取子系统,将预处理后的数据进行深度特征的提取,输出提取到的深度特征信息;S4:构建强化学习子系统,将深度特征信息与交易环境进行比对,进行强化学习,输出交易动作;S5:根据输入到系统中的数据产生的交易动作,实时调整金融市场的目标仓位,达到交易目的。2.根据权利要求1所述的一种基于深度强化学习的金融时序数据预测方法,其特征在于:所述S1中的金融时序数据包括价量信息与宏观信息;所述价量信息包括:开盘价、收盘价、最高价、最低价、成交量;所述宏观信息包括:市盈率、市净率、市销率、市现率、流通市值、总市值、毛利率、每股净资产、资产负债率、汇率。3.根据权利要求1所述的一种基于深度强化学习的金融时序数据预测方法,其特征在于:所述S2中数据预处理包括计算技术指标、数据缺失值的检查与处理、数据标准化、异常值处理,具体步骤如下:S21:接收外部系统WindAPI输出的原始的金融时序向量vraw进行数据缺失值的检查,并对缺失值进行标记;S22:利用原始的金融时序向量vraw,根据价量信息与宏观信息计算出对应的技术指标信息;S23:设时间滑动窗口为window=600,即每600分钟计算一次,每次计算会滑动一分钟,计算滑动窗口中vraw每个维度的均值μi和标准差σi,然后分别对每一维度进行标准化其中vi是vraw每一维度未经过变换的值,vi'是每一维度经过标准化处理后新的值,将每一维度的信息都标准化为均值为0,方差为1的数据;S24:使用箱线图法确定异常值,并将这些异常值剔除,用S23中计算得到的均值μi来代替异常值;S25:将S23中计算得到的均值μi填补S21中被标记的缺失值;S26:经过S21至S25对原始向量vraw的预处理得到市场状态特征向量vf作为数据处理子系统的输出。4.根据权利要求3所述的一种基于深度强化学习的金融时序数据预测方法,其特征在于:所述技术指标信息包括:指数平滑移动平均线MACD、平均趋向指数ADX、顺势指标CCI、相对强弱指数RSI、布林带BOOL、平均真实波动ATR、5日指数均线EMA_5、20日指数均线EMA_20、60日指数均线EMA_60、120日指数均线EMA_120、价格变化率ROC、随机动量指数SMI、集散量AD、动量线MOM、价格震荡百分比PPO、威廉变异离散量WVAD。5.根据权利要求1所述的一种基于深度强化学习的金融时序数据预测方法,其特征在于:步骤S3所述的特征提取子系统具体流...

【专利技术属性】
技术研发人员:方锡鑫潘炎赖韩江印鉴潘文杰
申请(专利权)人:中山大学广州中大南沙科技创新产业园有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1