当前位置: 首页 > 专利查询>重庆大学专利>正文

一种股票数据降维去噪的方法技术

技术编号:13995765 阅读:291 留言:0更新日期:2016-11-15 02:56
本发明专利技术涉及一种采用流形学习对股票数据进行降维去噪的方法。其特征在于,通过逼近每个数据点邻域的切空间来描述数据集的局部几何结构,再将这些局部切空间进行全局排列,得到整体低维嵌入坐标,实现股票原始数据高维到低维空间的线性映射。具体步骤为:1.股票数据集的表示;2.求取数据点邻域;3.提取局部信息;4.整合局部信息;5.求得转换矩阵;6.计算得到降维后的股票数据集。

【技术实现步骤摘要】

本专利技术属于金融数据分析处理领域,尤其涉及一种采用流形学习对股票数据进行降维去噪的方法。
技术介绍
股票数据含有大量噪声和冗余信息,这些干扰信息很容易使得模型错误地识别进而做出错误的判断,因此需要进行数据预处理,即特征提取的操作来对股票原始数据进行去噪,并增加特征的区分度以提高预测精度。但是传统特征提取算法都有各自的缺陷和不足,而且更重要的是传统方法都只能发现数据集全局的欧式结构,不能进一步发掘数据内部隐藏的模式。而流形学习方法将欧式空间扩展至流形空间,通过将原始数据样本点投影到低维特征空间并同时保留原始数据的几何结构,使得其十分擅长发现具有非线性特征的高维数据集中固有的结构模式。因此,我们将股票数据集看成一个潜在的非线性流形,在股票预测领域第一次引入流形学习方法中的线性局部切空间排列算法对股票数据进行降维去噪。
技术实现思路
用于对股票数据进行降维去噪的线性局部切空间排列算法,其基本思想是通过逼近每个数据点邻域的切空间来描述数据集的局部几何结构,再将这些局部切空间进行全局排列,得到整体低维嵌入坐标,实现股票原始数据高维到低维空间的线性映射。对于Rm空间中股票数据集S=[s1,s2,...,sn],线性局部切空间排列算法的目标是找到一个转换矩阵A,将S映射到低维空间Rd中,得到降维后的样本集Y=[y1,y2,...,yn],转换表达式如下所示:Y=ATSHn d<m (1)求解转换矩阵A的步骤为:Step1:求取数据点邻域。对S数据集中的每一个数据点si,i=1,...,n,根据距离决定其k个邻域sij,j=1,...,k.得到包含邻域信息的数据集S,Si=[si1,si2,...,sik]。Step2:提取局部信息。计算矩阵SiHK的d个最大特征值对应的特征向量,得到矩阵Vi,使得Wi=Hk(I-ViViT),其中Hk=I-eeT/k为中心化矩阵。Step3:整合局部信息。其思想为对局部坐标进行全局排列,即找到一个局部排列转换矩阵,将所有数据点对应的切空间局部坐标映射到低维全局空间,并使得误差和最小。计算过程为对局部信息求和,表达式如下: B ( I i , I i ) ← B ( I i , I i ) + W i W i T , i = 1 , ... , n - - - ( 2 ) ]]>初始的B=0,且Ii={i1,...,ik本文档来自技高网...

【技术保护点】
一种股票数据降维去噪的方法,其特征在于,包括以下步骤:a)股票数据集的表示假设含噪声的股票数据集S=[s1,s2,...,sn]是Md空间中一个潜在的d维非线性流形,且嵌入在高维的欧几里德空间Rm中,其中d<m,线性局部切空间排列算法的目标是找到一个转换矩阵A,将S映射到低维空间Rd中,得到降维后的样本集O=[o1,o2,...,on];b)求取数据点邻域对S数据集中的每一个数据点si,i=1,...,n,根据距离决定其k个邻域sij,j=1,...,k.得到包含邻域信息的数据集S,Si=[si1,si2,...,sik];c)提取局部信息计算矩阵SiHK的d个最大特征值对应的特征向量,得到矩阵Vi,使得Wi=Hk(I‑ViViT),其中Hk=I‑eeT/k为中心化矩阵;d)整合局部信息对局部坐标进行全局排列,即找到一个局部排列转换矩阵,将所有数据点对应的切空间局部坐标映射到低维全局空间,并使得误差和最小;e)求得转换矩阵A对公式(3)求取其最小的d个广义特征值对应的广义特征向量:SHnBHnSTα=λSHnSTα,得到的特征向量α1,α2,...,αd组成的矩阵A即为所求,A=[α1,α2,...,αd]。...

【技术特征摘要】
1.一种股票数据降维去噪的方法,其特征在于,包括以下步骤:a)股票数据集的表示假设含噪声的股票数据集S=[s1,s2,...,sn]是Md空间中一个潜在的d维非线性流形,且嵌入在高维的欧几里德空间Rm中,其中d<m,线性局部切空间排列算法的目标是找到一个转换矩阵A,将S映射到低维空间Rd中,得到降维后的样本集O=[o1,o2,...,on];b)求取数据点邻域对S数据集中的每一个数据点si,i=1,...,n,根据距离决定其k个邻域sij,j=1,...,k.得到包含邻域信息的数据集S,Si=[si1,si2...

【专利技术属性】
技术研发人员:陈远罗必辉蒋维琛陈文欣
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1