一种基于深度强化学习的金融时序数据预测方法技术

技术编号：20161284 阅读：38 留言：0更新日期：2019-01-19 00:14

本发明专利技术公开了一种基于深度强化学习的金融时序数据预测方法。本方法包括三个主要的子系统：数据处理子系统，此子系统的功能是对从WindAPI获取到的原始数据进行数据处理；特征提取子系统，此子系统的功能是构造一个深度神经网络来提取数据特征；强化学习子系统，此子系统的功能是基于Actor‑Critic算法，构造策略网络和评估网络，分别进行交易动作的选取与评价，然后不断迭代更新来保证整个系统获取到市场最新的动态信息，并根据获取到的状态信息作出最优的交易动作，最终获取较好的交易效果。本发明专利技术能够通过金融市场的一些基本信息，不断去学习这个复杂的金融市场，及时捕获可能获利的交易动作，实现盈利目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的金融时序数据预测方法
本专利技术涉及深度学习和强化学习领域，更具体地，涉及一种基于深度强化学习的金融时序数据预测方法。
技术介绍
在全球化盛行的今天，金融市场达到空前的规模，投资领域因此涌现出一大批优秀的分析员依靠个人经验和一些主观分析判断来预测资产未来价格，但是传统的交易员操作显然有些低效，因此人们也会借助计算机进行量化研究，代替重复的一些人为工作，这时也就相继出现传统量化投资领域的算法模型，其中也包括了很多结合机器学习做的一些研究，像众所周知的贝叶斯、支持向量机、循环神经网络等。但是往往传统的那些研究方法都存在考虑的指标单一、人为操作的模型预测泛化能力不够等问题，而传统的机器学习算法应用在金融时序数据也同样存在比较明显的缺陷，很多模型特别是深度神经网络在金融时序数据的预测问题上会导致过拟合。金融市场是很变幻莫测的，非平稳性质是金融时序数据普遍存在的一个特性，这让很多模型预测的时候也表现出不稳定的状况。近些年，随着阿尔法围棋大败各大围棋高手后，强度学习进入了全新火热的探索阶段，同样金融领域也不例外，但是不同的算法效果自然也有所差异，其总体架构如下图1所示，本专利技术的强化学习算法也可用图1表示。强化学习系列也有很多的算法，大致可以分为基于值函数(value-based)的算法和基于策略(policy-based)的算法。基于值函数的算法典型代表为Q-Learning，其在金融领域的应用是将市场状态定义出来，然后根据ε-greedy策略去选择交易动作，接着观察环境以及动作得到的奖励，进而更新维护Q值表，以此来达到优化交易动作选择的目的...

【技术保护点】
1.一种基于深度强化学习的金融时序数据预测方法，其特征在于：包括以下步骤：S1：从外部系统的WindAPI下载原始的金融时序数据；S2：构建数据处理子系统，将下载后的原始的金融时序数据进行数据预处理，并输出预处理后的数据；S3：构建特征提取子系统，将预处理后的数据进行深度特征的提取，输出提取到的深度特征信息；S4：构建强化学习子系统，将深度特征信息与交易环境进行比对，进行强化学习，输出交易动作；S5：根据输入到系统中的数据产生的交易动作，实时调整金融市场的目标仓位，达到交易目的。

【技术特征摘要】
1.一种基于深度强化学习的金融时序数据预测方法，其特征在于：包括以下步骤：S1：从外部系统的WindAPI下载原始的金融时序数据；S2：构建数据处理子系统，将下载后的原始的金融时序数据进行数据预处理，并输出预处理后的数据；S3：构建特征提取子系统，将预处理后的数据进行深度特征的提取，输出提取到的深度特征信息；S4：构建强化学习子系统，将深度特征信息与交易环境进行比对，进行强化学习，输出交易动作；S5：根据输入到系统中的数据产生的交易动作，实时调整金融市场的目标仓位，达到交易目的。2.根据权利要求1所述的一种基于深度强化学习的金融时序数据预测方法，其特征在于：所述S1中的金融时序数据包括价量信息与宏观信息；所述价量信息包括：开盘价、收盘价、最高价、最低价、成交量；所述宏观信息包括：市盈率、市净率、市销率、市现率、流通市值、总市值、毛利率、每股净资产、资产负债率、汇率。3.根据权利要求1所述的一种基于深度强化学习的金融时序数据预测方法，其特征在于：所述S2中数据预处理包括计算技术指标、数据缺失值的检查与处理、数据标准化、异常值处理，具体步骤如下：S21：接收外部系统WindAPI输出的原始的金融时序向量vraw进行数据缺失值的检查，并对缺失值进行标记；S22：利用原始的金融时序向量vraw，根据价量信息与宏观信息计算出对应的技术指标信息；S23：设时间滑动窗口为window＝600，即每600分钟计算一次，每次计算会滑动一分钟，计算滑动窗口中vraw每个维度的均值μi和标准差σi，然后分别对每一维度进行标准化其中vi是vraw每一维度未经过变换的值，vi'是每一维度经过标准化处理后新的值，将每一维度的信息都标准化为均值为0，方差为1的数据；S24：使用箱线图法确定异常值，并将这些异常值剔除，用S23中计算得到的均值μi来代替异常值；S25：将S23中计算得到的均值μi填补S21中被标记的缺失值；S26：经过S21至S25对原始向量vraw的预处理得到市场状态特征向量vf作为数据处理子系统的输出。4.根据权利要求3所述的一种基于深度强化学习的金融时序数据预测方法，其特征在于：所述技术指标信息包括：指数平滑移动平均线MACD、平均趋向指数ADX、顺势指标CCI、相对强弱指数RSI、布林带BOOL、平均真实波动ATR、5日指数均线EMA_5、20日指数均线EMA_20、60日指数均线EMA_60、120日指数均线EMA_120、价格变化率ROC、随机动量指数SMI、集散量AD、动量线MOM、价格震荡百分比PPO、威廉变异离散量WVAD。5.根据权利要求1所述的一种基于深度强化学习的金融时序数据预测方法，其特征在于：步骤S3所述的特征提取子系统具体流...

【专利技术属性】
技术研发人员：方锡鑫，潘炎，赖韩江，印鉴，潘文杰，
申请(专利权)人：中山大学，广州中大南沙科技创新产业园有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人