当前位置: 首页 > 专利查询>宋亚童专利>正文

基于降维技术优化的循环神经网络的股市数据分析方法技术

技术编号:23401334 阅读:6 留言:0更新日期:2020-02-22 13:28
本发明专利技术属于金融信息数据处理技术领域,公开了一种基于降维技术优化的循环神经网络的股市数据分析方法,对数据集分别先做因子分析,分别取出其质因子的第一类与第二类;找到参变量,并分析参变量随时间变化对股票涨跌的关系;把参变量代入LSTM模型进行预测,优化后的LSTM在每个激励源处加入了遗忘门,对先前信息进行筛选。本发明专利技术对LSTM神经网络在金融领域的拓展,成功的把遗忘门的概念应用于股市分析,并提高了精确度;在数据与处理中引入降维算法并进行对比。本发明专利技术突出了降维技术的优势以及LSTM网络的准确性,使得股市预测比传统的分析方法更加可信;预测可以应用到实际中。

Data analysis method of stock market based on cyclic neural network optimized by dimension reduction technology

【技术实现步骤摘要】
基于降维技术优化的循环神经网络的股市数据分析方法
本专利技术属于金融信息数据处理
,尤其涉及一种基于降维技术优化的循环神经网络的股市数据分析方法。
技术介绍
目前,最接近的现有技术:主成分分析法,在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析就属于这类降维算法。PCA即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。基于SVD分解协方差矩阵实现PCA算法:输入:数据集X={x1,x2,…xN},需要降到k维。1)去平均值,即每一位特征减去各自的平均值。2)计算协方差矩阵XXT。3)通过SVD计算协方差矩阵的特征值与特征向量。4)对特征值从大到小排序,选择其中最大的k个。然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。5)将数据转换到k个特征向量构建的新空间中。传统的循环神经网络,RNN是一种特殊的神经网络结构,它是根据″人的认知是基于过往的经验和记忆″这一观点提出的;它与DNN,CNN不同的是:它不仅考虑前一时刻的输入,而且赋予了网络对前面的内容的一种“记忆”功能。RNN之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。综上所述,现有技术存在的问题是:(1)现有的主成分分析法以及传统的循环神经网络进行预测仅利用其中为数不多的两个或三个,而对于其余指标则进行忽略,导致数据结果不准确。(2)传统的RNN算法如果利用梯度下降法进行优化,则会出现“梯度消失”或“梯度爆炸”的严重问题,数据的准确率低。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于降维技术优化的循环神经网络的股市数据分析方法。本专利技术是这样实现的,一种基于降维技术优化的循环神经网络的股市数据分析方法,所述基于降维技术优化的循环神经网络的股市数据分析方法包括以下步骤:第一步,对数据集分别先取因子分析法对R型因子模型做因子分析,分别取出所述数据集质因子的第一类与第二类;所述数据集中数据按照时间排列,最短15min为单位,5个基本变量分别为open,high,low,close,volume,五个基本变量相互独立,记为X={x1,x2,...xN};若干由5个基本变量导出的导出量,记为Y={y1,y2,...yN};所述R型因子模型如下:X=AF+ε;式中,A为因子载荷矩阵,F为公共因子,ε为特殊因子,利用主因子估计法计算出因子载荷矩阵,因子估计法描述如下:随机向量X的协方差矩阵为∑,λ1≥λ2≥...≥λp>0为∑的特征根,u1,u2,...,up为对应的标准正交化特征向量,∑的谱分解为:因子载荷aij表示xi依赖Fj的程度,其值越大,依赖程度越大;对X,Y两个数据集分别先做因子分析,分别取所述因子的第一类与第二类;分别找到两个参变量,并分析这两个参变量随时间变化对股票涨跌的关系;第二步,找到参变量,并分析参变量随时间变化对股票涨跌的关系;第三步,把参变量代入LSTM模型进行预测,优化后的LSTM在每个激励源处加入遗忘门,对先前信息进行筛选;所述LSTM模型包括:(1)forgetgate:选择忘记过去某些信息:(2)inputgate:记忆现在的某些信息:(3)将过去与现在的记忆进行合并:(4)outputgate:输出:ht=ot*tanh(Ct);所述LSTM模型的计算如下:g(t)=Φ(Wgxx(t)+Wghh(t-1)+bg)i(t)=σ(Wixx(t)+Wihh(t-1)+bi)f(t)=σ(Wfxx(t)+Wfhh(t-1)+bf)o(t)=σ(Woxx(t)+Wohh(t-1)+bo)s(t)=g(t)ei(i)+s(t-1)ef(t)h(t)=s(t)eo(t)。进一步,所述第一步之前还进行:从RESSET金融研究数据库、Wind资讯数据库以及从股市数据集中获取过去一段时间的源数据,并将源数据转化为按照时间排列的标准化数据集。进一步,第二步,所述分析参变量随时间变化对股票涨跌关系的方法包括:步骤一,建立参变量随时间变化对股票涨跌关系信息数据库,对参变量随时间变化对股票涨跌关系信息进行永久存贮,并允许联网后由业务库和手机APP访问;步骤二,建立维度设置;所述维度设置包括但不限于设计时间、区域、股票涨跌、监测对象、监测类型关键业务维度;步骤三,建立事实库数据结构及关键性指标;实现从业务库抽取数据功能;步骤四,建立股票涨跌监测数据多维分析集模型,包括业务维度、事实库以及数据从业务库到事实库的转发;步骤五,多维分析集数据浏览:依据建立的多维分析集自主选择维度,组合各种特定的统计报表;按照股票涨跌监测模式的数据结构处理多维数据仓库,将监测数据按照不同参变量形成汇总表;将数据组织成一个数据空间;步骤六,股票涨跌监测数据和股票涨跌报告数据信息的分析和展示;步骤七,将软件数据库部署在服务端,软件访问端根据不同使用要求分为录入管理端和统计分析端。进一步,步骤六中,所述通过对监测信息和股票涨跌信息的自主选择分组维度,进行数据汇总及生成特定的统计报表;监测结果按年、月、日、时与同期、上期本文档来自技高网
...

【技术保护点】
1.一种基于降维技术优化的循环神经网络的股市数据分析方法,其特征在于,所述基于降维技术优化的循环神经网络的股市数据分析方法包括以下步骤:/n第一步,对数据集分别先取因子分析法对R型因子模型做因子分析,分别取出所述数据集质因子的第一类与第二类;所述数据集中数据按照时间排列,最短15min为单位,5个基本变量分别为open,high,low,close,volume,五个基本变量相互独立,记为X={x

【技术特征摘要】
1.一种基于降维技术优化的循环神经网络的股市数据分析方法,其特征在于,所述基于降维技术优化的循环神经网络的股市数据分析方法包括以下步骤:
第一步,对数据集分别先取因子分析法对R型因子模型做因子分析,分别取出所述数据集质因子的第一类与第二类;所述数据集中数据按照时间排列,最短15min为单位,5个基本变量分别为open,high,low,close,volume,五个基本变量相互独立,记为X={x1,x2,…xN};若干由5个基本变量导出的导出量,记为Y={y1,y2,…yN};
所述R型因子模型如下:
X=AF+ε;



式中,A为因子载荷矩阵,F为公共因子,ε为特殊因子,利用主因子估计法计算出因子载荷矩阵,因子估计法描述如下:
随机向量X的协方差矩阵为∑,λ1≥λ2≥...≥λp>0为∑的特征根,u1,u2,...,up为对应的标准正交化特征向量,∑的谱分解为:









因子载荷aij表示xi依赖Fj的程度,其值越大,依赖程度越大;对X,Y两个数据集分别先做因子分析,分别取所述因子的第一类与第二类;分别找到两个参变量,并分析这两个参变量随时间变化对股票涨跌的关系;
第二步,找到参变量,并分析参变量随时间变化对股票涨跌的关系;
第三步,把参变量代入LSTM模型进行预测,优化后的LSTM在每个激励源处加入遗忘门,对先前信息进行筛选;
所述LSTM模型包括:
(1)forgetgate:选择忘记过去某些信息:



(2)inputgate:记忆现在的某些信息:






(3)将过去与现在的记忆进行合并:



(4)outputgate:输出:



ht=ot*tanh(Ct);
所述LSTM模型的计算如下:
g(t)=Φ(Wgxx(t)+Wghh(t-1)+bg)
i(t)=σ(Wixx(t)+Wihh(t-1)+bi)
f(t)=σ(Wfxx(t)+Wfhh(t-1)+bf)
o(t)=σ(Woxx(t)+Wohh(t-1)+bo)
s(t)=g(t)ei(i)+s(t-1)ef(t)
h(t)=s(t)eo(t)。


2.如权利要求1所述的基于降维技术优化的循环神经网络的股市数据分析方法,其特征在于,所述第一步之前还进行:
从RESSET金融研究数据库、Wind资讯数据库以及从股市数据集中获取过去一段时间的源数据,并将源数据转化为按照时间排列的标准化数据集。


3.如权利要求1所述的基于降维技术优化的循环神经网络的股市数据分析方法,其特征在于,第二步,所述分析参变量随时间变化对股票涨跌关系的方法包括:
步骤一,建立参变量随时间变化对股票涨跌关系信息数据库,对参变量随时间变化对股票涨跌关系信息进行永久存贮,并允许联网后由业务库和手机APP访问;
步骤二,建立维度设置;所述维度设置包括但不限于设计时间、区域、股票涨跌、监测对象、监测类型关键业务维度;
步骤三,建立事实库数据结构及关键性指标;实现从业务库抽取数据功能;
步骤四,建立股票涨跌监测数据多维分析集模型,包括业务维度、事实库以及数据从业务库到事实库的转发;
步骤五,多维分析集数据浏览:依据建立的多维分析集自主选择维度,组合各种特定的统计报表;按照股票涨跌监测模式的数据结构处理多维数据仓库,将监测数据按照不同参变量形成汇总表;将数据组织成一个数据空间;
步骤六,股票涨跌监测数据和股票涨跌报告数据信息的分析和展示;
步骤七,将软件数据库部署在服务端,软件访问端根据不同使用要求分为录入管理端和统计分析端。


4.如权利要求1所述的基于降维技术优化的循环神经网络的股市数据分析方法,其特征在于,步骤六中,所述通过对监测信息和股票涨跌信息的自主选择分组维度,进行数据汇总及生成特定的统计报表;监测结果按年、月、日、时与同期、上期数据进行横向比较分析以及生成分析图表;
所述生成分析图表的展示实现方法为:通过对股票涨跌监测及股票涨跌信息数据库的数据进行相应参变量的设置,用不同的数据值和区块图颜色渐变展示不同股票涨跌的区块分布特征,最终生成股票涨跌监测信息结果统计分布...

【专利技术属性】
技术研发人员:宋亚童胡俊丰于润祥
申请(专利权)人:宋亚童
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1