当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法,装置及服务器制造方法及图纸

技术编号:22308979 阅读:57 留言:0更新日期:2019-10-16 09:02
本发明专利技术属于金融时间序列数据处理领域,公开了一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法、装置和服务器,方法包括:截取股票金融时间序列数据,进行经验模态分解后获得本征模态函数序列;采用降维处理对本征模态函数序列中的冗余数据进行压缩;采用堆叠自动编码器对降维得到的数据进行无监督学习,获得金融时间序列的深层特征;将金融时间序列的深层特征按照比例分为训练集、验证集和测试集,并采用训练集对时间循环神经网络模型进行训练后获得训练好的时间循环神经网络模型;根据训练好的时间循环神经网络模型对金融时间序列进行预测。本发明专利技术通过将堆叠自动编码器和长短期记忆网络结合并应用于股票价格预测来提高金融预测的速度和准确性。

A prediction method, device and server of financial time series based on long short memory network and deep data cleaning

【技术实现步骤摘要】
一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法,装置及服务器
本专利技术属于金融时间序列数据处理领域,更具体地,涉及一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法。
技术介绍
在全球经济、金融一体化的今天,金融市场不断呈现出很多经典金融理论无力解释的复杂现象,主要表现为:金融市场不再是有效市场假说描述下的理想市场,金融市场呈现出的高智能性、强相关性、紧耦合性使它成为一个复杂的非线性动力系统。构建预测模型对这样一个复杂的非线性动力系统进行描述,揭示金融时间序列运行的内在规律,并在世人面前展示它的演化机制,方便人们防范金融风险、管理市场和监督市场,毫无疑问都具有重大的现实意义和理论价值。金融时间序列是属于时间序列数据的一种,具有很强的时间性,数据前后具有很强的依赖性,且无法调整顺序,一般都是二维数据。现有的金融时间序列分析大多只考虑分析收盘价,但是股指每天都在最高价和最低价之间振荡,如果只分析收盘价,就丢失了很多有用的数据信息,这会造成预测的信息不全面,不能满足市场投资者的要求。这就要求需要对原始的金融数据进行深度的清洗后抽取更为有效的特征,完善预测模型。受市场噪声和政策易变特征的影响,股票市场预测通常被认为是金融时间序列预测中最具挑战性的问题之一。如何准确预测股票走势仍然是经济、社会领域中的一个悬而未决的问题。在过去的几十年中,机器学习模型,例如人工神经网络(ANNs)和支持向量回归(SVR),已被广泛应用于股票走势预测,并获得一定的预测成果。考虑到金融时间序列特别是股票时间序列的复杂性,将深度学习与金融市场预测相结合被认为是金融领域发展的重大趋势之一。然而,这个领域仍然处于探索的初期阶段。目前金融预测研究中广泛使用三种主要的深度学习方法,包括卷积神经网络(CNN),深信念网络(DBN)和堆叠自动编码器(SAE)。深度学习应用于金融的相关工作主要集中于前两种,而对于堆叠自动编码器方法是否可以应用于金融市场预测,很少有人研究该领域的相关问题。
技术实现思路
针对现有技术的缺陷,本专利技术提供了一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法,其目的在于通过将堆叠自动编码器和长短期记忆网络结合并应用于股票价格预测来提高金融预测的速度和准确性。本专利技术提供了一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法,包括下述步骤:(1)采用窗口宽度为W的滑动窗口实时截取股票金融时间序列数据,并对截取的数据进行经验模态分解后获得本征模态函数序列;(2)采用降维处理对本征模态函数序列中的冗余数据进行压缩;(3)采用堆叠自动编码器对降维得到的数据进行无监督学习,获得金融时间序列的深层特征;(4)将金融时间序列的深层特征按照比例分为训练集、验证集和测试集,并采用训练集对时间循环神经网络模型进行训练后获得训练好的时间循环神经网络模型;(5)根据训练好的时间循环神经网络模型对金融时间序列进行预测。更进一步地,步骤(1)中,股票金融时间序列数据为:,F(t)=(F.O(t),F.C(t),F.H(t),F.L(t))其中F.O(t),F.C(t),F.H(t),F.L(t)分别表示交易日当天的开盘价、收盘价、最高价和最低价。更进一步地,对截取的数据进行经验模态分解后获得本征模态函数序列具体包括:获取股票金融时间序列F(t)所有的极大值点,并采用三次样条插值函数拟合形成原数据的上包络线;获取股票金融时间序列F(t)所有的极小值点,并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线;获得所述上包络线和所述下包络线的均值m,并将原数据序列F(t)减去包络的平均值m后获得新的数据序列h=F(t)-m;判断新的数据序列h是否还存在负的局部极大值和正的局部极小值,若是,则通过数据的特征时间尺度来获得本征波动模式并对新的数据序列h继续进行分解;若否,则新的数据序列为一个本征模函数。更进一步地,步骤(2)中,所述降维处理后,原m个本征模态函数序列简化成为n个相对独立的主成分,其中n<m。更进一步地,步骤(4)中,将金融时间序列的深层特征按照80%,10%,10%的比例分为训练集、验证集和测试集.更进一步地,步骤(4)中,使用长短期记忆网络对金融时间序列数据进行正向传播计算后获得输出值与检验值之间的误差;当所述误差不满足收敛条件时,利用反向传播算法对网络参数进行更新,直到误差满足收敛条件后输出训练好的时间循环神经网络模型。本专利技术还提供了一种基于长短记忆网络与深度数据清洗的金融时间序列预测装置,包括:数据截取模块,采用窗口宽度为W的滑动窗口实时截取股票金融时间序列数据;分解模块,用于对截取的数据进行经验模态分解后获得本征模态函数序列;降维模块,用于对本征模态函数序列中的冗余数据进行压缩;堆叠自动编码器,用于对降维得到的数据进行无监督学习,获得金融时间序列的深层特征;时间循环神经网络模型获取模块,用于将金融时间序列的深层特征按照比例分为训练集、验证集和测试集,并采用训练集对时间循环神经网络模型进行训练后获得训练好的时间循环神经网络模型;预测模块,用于根据训练好的时间循环神经网络模型对金融时间序列进行预测。本专利技术还提供了一种服务器,服务器上设置上述的基于长短记忆网络与深度数据清洗的金融时间序列预测方法。本专利技术采用EMD分解算法以适应金融数据的非线性、随机性的特征,可解决金融预测问题;然后采用PCA对IMF分量降维,提取最有效的数据信息以降低噪声扰动,降维过程有效地减少了冗余数据,提高了模型的响应速度。降维得到的数据输入堆叠自动编码器,SAE主要作用是通过无监督学习来获取金融时间序列的深层特征,最后分类得到的数据输入LSTM模型训练,这样发挥了长短记忆网络适应范围广和预测性能好的优势。因此,本专利技术提供的方法既保留了EMD分解算法,LSTM网络模型的优点;又通过PCA降维,SAE训练提高了模型响应速度,兼顾了金融预测快速和准确的要求。附图说明图1是一个单层自动编码器(singlelayerautoencoder.)的流程图;图2是5层堆叠自动编码器;图3是LSTM的内部处理器和三重门(Xt与ht分别代表t时刻的输入与输出矩阵);图4是基于深度数据清洗和LSTM的金融时间序列预测方法流程图;图5是通过滑动窗口提取数据的示意图,表示从T1时刻到Tn时刻窗口的滑动情况;图6是EMD筛选过程流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。深度学习方法在金融方面特别是股票预测领域的应用受到了投资者和研究人员的极大关注。基于股票交易数据深度清洗和整合,多因子变量的降维处理,以提供新的特征维度;最新最热的深度学习方法如何应用与股票价格预测两个问题,本专利技术提出了新的解决方案。本专利技术针对数据整合和清洗问题,本专利技术引入基于金融时间序列特殊经验模态分解(FinancialTimeSeriesEmpiricalModeDecomposition,FTS-EMD),考虑同时将最高价和最低价也纳入到输入输出之中。通过同时分析股指的收盘价、最高价和最低价,从而更好地把握股票指数这一区间时间序列的波动本文档来自技高网
...

【技术保护点】
1.一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法,其特征在于,包括下述步骤:(1)采用窗口宽度为W的滑动窗口实时截取股票金融时间序列数据,并对截取的数据进行经验模态分解后获得本征模态函数序列;(2)采用降维处理对本征模态函数序列中的冗余数据进行压缩;(3)采用堆叠自动编码器对降维得到的数据进行无监督学习,获得金融时间序列的深层特征;(4)将金融时间序列的深层特征按照比例分为训练集、验证集和测试集,并采用训练集对时间循环神经网络模型进行训练后获得训练好的时间循环神经网络模型;(5)根据训练好的时间循环神经网络模型对金融时间序列进行预测。

【技术特征摘要】
1.一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法,其特征在于,包括下述步骤:(1)采用窗口宽度为W的滑动窗口实时截取股票金融时间序列数据,并对截取的数据进行经验模态分解后获得本征模态函数序列;(2)采用降维处理对本征模态函数序列中的冗余数据进行压缩;(3)采用堆叠自动编码器对降维得到的数据进行无监督学习,获得金融时间序列的深层特征;(4)将金融时间序列的深层特征按照比例分为训练集、验证集和测试集,并采用训练集对时间循环神经网络模型进行训练后获得训练好的时间循环神经网络模型;(5)根据训练好的时间循环神经网络模型对金融时间序列进行预测。2.如权利要求1所述的金融时间序列预测方法,其特征在于,步骤(1)中,股票金融时间序列数据为:F(t)=(F.O(t),F.C(t),F.H(t),F.L(t)),其中F.O(t),F.C(t),F.H(t),F.L(t)分别表示交易日当天的开盘价、收盘价、最高价和最低价。3.如权利要求2所述的金融时间序列预测方法,其特征在于,对截取的数据进行经验模态分解后获得本征模态函数序列具体包括:获取股票金融时间序列F(t)所有的极大值点,并采用三次样条插值函数拟合形成原数据的上包络线;获取股票金融时间序列F(t)所有的极小值点,并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线;获得所述上包络线和所述下包络线的均值m,并将原数据序列F(t)减去包络的平均值m后获得新的数据序列h=F(t)-m;判断新的数据序列h是否还存在负的局部极大值和正的局部极小值,若是,则通过数据的特征时间尺度来获得本征波动模式并对新的数据序...

【专利技术属性】
技术研发人员:李振军谭舜泉倪良宇陆芸婷
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1