当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于超图的股票历史信息分析排序系统及方法技术方案

技术编号:38105907 阅读:11 留言:0更新日期:2023-07-06 09:27
本发明专利技术提供一种基于超图的股票历史信息分析排序系统及方法,涉及分析系统领域。本系统,由数据预处理部分、模型构建部分、分析和反馈部分组成。通过获取股票的历史数据以及对应的历史关系并数据预处理,使用Informer算法的encoder部分进行特征提取;进行隐藏概念挖掘构建完整股票关系;根据挖掘到的隐藏概念与预定义的概念构建超图;构建超图卷积算法;分析数据并对模型进行训练;生成股票分析排序结果;分析结果并反馈。本发明专利技术优点:本发明专利技术能够更准确地分析现存股票收益能力,为交易人员提供更加可靠的交易参考,辅助提升交易整体的收益期望。期望。期望。

【技术实现步骤摘要】
一种基于超图的股票历史信息分析排序系统及方法


[0001]本专利技术属于分析系统领域,特别涉及基于一种超图的股票历史信息分析排序系统及方法。

技术介绍

[0002]量化交易是指通过先进数学模型替代人为的主观判断,并利用计算机技术在大量的历史数据中找出带来超额收益的多种大概率时间,进而制定相应策略。作为量化交易重要分支,股票历史数据分析工作在量化交易中有着很高的地位,而股票分析工作又可细化为很多工作,例如股票价格和趋势预测、风险分析以及收益预测等等。而本专利技术将进行对股票历史信息的分析,最终给出股票推荐,即投资组合问题。
[0003]股票投资组合问题一致备受人们关注,虽然解决方法层出不穷,但是由于股票数据的多变性,该问题依旧是一个具有挑战性的任务,目前解决该问题的方法主要分为三类:统计学方法、传统机器学习方法以及深度学习方法,相较于其他两种方法,深度学习方法有着适应性强、准确率较高、捕获特征能力较强以及人为干预少等优点,因此专利技术采用深度学习方法开展研究工作。
[0004]深度学习作为机器学习领域中一个新研究方向,使得机器学习更加接近于最初实现人工智能这一目标。其概念源于人工神经网络,模仿人脑机制来解释数据,它通过组合底层特征形成高层表示属性类别或特征。现如今,随着深度学习的崛起,深度学习也被广泛应用于各个领域,如搜索技术、数据挖掘、自然语言处理、图像识别等等。其效果也往往要超过先前相关技术,也可以用来解决很多以往传统技术无法解决的问题,深度学习随着解决问题的增多也在不断地发展,如今的深度学习技术类别多种多样,典型代表有循环神经网络、卷积网络、自编码器、生成式对抗网络等等。随着深度学习的发展,越来越多的人对其产生兴趣,因此为了方便研究,大量工具也随之产生,例如TensorFlow、PyTorch、Caffe、MxNet等。
[0005]因为股票投资组合问题的输入数据属于时间序列数据预测问题,因此本专利技术选择对时间序列预测问题有着一定优势的循环神经网络来解决股票投资组合问题。
[0006]循环神经网络(CNN)之所以称为循环神经网络,主要与其特性有关,其特性具体体现于后层输入值要带有前面隐藏层的输出值,这样它就会对一组序列输入重复进行同样的操作,因此被称为循环神经网络。循环神经网络主要应用于语音分析、文字分析以及时间序列分析等。重点就是这些数据存在前后依赖关系,有序列关系。其取得的效果也是有目共睹。RNN的核心部分是一个有向图。有向图展开中以链式相连的元素被称为循环单元(RNN cell)。通常地,循环单元构成的链式连接可类比前馈神经网络中的隐藏层(hidden layer),但RNN的“层”可能指单个时间步的循环单元或所有的循环单元,每个循环单元当前时间步状态由该时间步输入和上一个时间步的状态决定,其输出模式随着所解决问题的不同而发生改变,对于股票收益率预测问题来说其对应输入输出都为序列。我们预测股票收益率用RNN比普通的DNN效果要好的原因是股票收益率和时间相关,今天的价格和昨天、上
周、上个月可能都有关系。而RNN具有较强的“记忆”能力,这个“记忆”能力是由于RNN可以对一组输入序列重复操作这一特性,该特性保证了一些先前的数据特征能够保存,所以便有了“记忆”一说,可以“模拟”数据间的依赖关系(Dependency)。为了加强这种“记忆能力”,人们研究出了多种多样得RNN变形体,如非常著名的长短期记忆模型(LSTM),可用于解决“长期及远距离的依赖关系”。
[0007]虽然循环神经网络已经在时间序列分析问题上展现出了良好的性能,但是股票数据通常存在较多的噪声,同时股票与股票之间存在多种联系,如若不考虑这种联系,这可能会导致模型对数据之间的关联缺少认识,导致结果不佳,因此本专利技术引入了超图以及股票隐藏概念挖掘来解决该问题
[0008]超图(Hypergraph)是一种广义上的图,它的一条边可以连接任意数量的顶点。超图卷积神经网络与图卷积神经网络类似,图神经网络(GNNs)是一种连接主义模型,它通过在图的节点之间传递消息来获取图的依赖性。与标准神经网络不同的是,图神经网络保留了一种状态,这种状态可以用任意深度表示邻居的信息。超图在图的基础上增加了更多的关系,被广泛应用于图像处理任务、超大规模集成电路、推荐系统等领域。大量实验结果表明,超图结构在表示数据的高阶交互关系方面要优于传统图结构。超图应用在股票数据中则可以表示更多的股票关系,使用传统的图结构,每一个图只能代表一种关系,而超图则可以用一个超图来表示所有的关系,进而提高模型对数据的认知程度,进一步加强分析效果。
[0009]本专利技术对上述技术整体应用可概述为:首先通过网络爬虫以及数据机构提供的API获取股票数据以及股票所属的公司关系,然后使用特征提取算法对数据进行特征提取,之后分别使用预定义的股票关系以及挖掘到的隐藏关系构建两个超图,最后结合超图卷积神经网络算法对模型进行训练。

技术实现思路

[0010]针对现有技术的不足,本专利技术提出了一种基于超图的股票历史信息分析排序系统及方法。
[0011]一种基于超图的股票历史信息分析排序系统,由数据预处理部分、模型构建部分、分析和反馈部分组成。
[0012]所述数据预处理部分用于公开股票数据的特征提取以及超图的构建;该模块对输入的时序股票特征进行编码,具体包括股票每天的开盘价、闭盘价、交易量、最高价和最低价,对原始股票数据进行特征提取并将数据的结构进行维度处理;所述超图的构建是根据从外部获取的预定义关系来构建系统后续处理的结构的超图。
[0013]所述模型构建部分用于模型的构建和模型的训练与分析;将数据预处理部分进行特征提取后股票数据通过训练好的模型处理为排序后的结果;
[0014]所述分析和反馈部分根据模型构建部分的排序结果,调整超参数直到模型的评价指标符合预设的标准,在确定最终的模型后根据输入数据与关系超图获取最终的股票排序结果,对结果的分析包括金融领域的指标评价。
[0015]一种基于超图的股票历史信息分析排序方法,基于前述一种基于超图的股票历史信息分析排序系统实现,具体步骤如下:
[0016]步骤1:获取所选股票的简称和对应的历史数据;
[0017]步骤2:对步骤1中获取的股票历史数据进行数据预处理,根据股票简称对股票关系进行预定义扩充;
[0018]步骤2.1:股票数据缺失值的填补和去除;
[0019]步骤2.2:对时间序列类型的股票原始数据进行消峰填谷优化;
[0020]步骤2.3:进一步优化股票数据,对消峰填谷后的数据进行归一化处理,归一化算法公式为:
[0021][0022]式中x
i
为归一后的数据,为步骤2.2处理后的数据,∈为防止分母为零设置的极小值。
[0023]步骤2.4:根据预选择的股票简称列表获取对应的股票关系,由于需要Wikidata获取股票关系,而Wikidata只能通过公司全称来自动获取对应的wikiq

code,因此使用bea本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于超图的股票历史信息分析排序系统,其特征在于,由数据预处理部分、模型构建部分、分析和反馈部分组成;所述数据预处理部分用于公开股票数据的特征提取以及超图的构建;该模块对输入的时序股票特征进行编码,具体包括股票每天的开盘价、闭盘价、交易量、最高价和最低价,对原始股票数据进行特征提取并将数据的结构进行维度处理;所述模型构建部分用于模型的构建和模型的训练与分析;将数据预处理部分进行特征提取后股票数据通过训练好的模型处理为排序后的结果;所述分析和反馈部分根据模型构建部分的排序结果,调整超参数直到模型的评价指标符合预设的标准,在确定最终的模型后根据输入数据与关系超图获取最终的股票排序结果,对结果的分析包括金融领域的指标评价。2.根据权利要求1所述的一种基于超图的股票历史信息分析排序系统,其特征在于,所述超图的构建是根据从外部获取的预定义关系来构建系统后续处理的结构的超图。3.一种基于超图的股票历史信息分析排序方法,基于权利要求1所述的一种基于超图的股票历史信息分析排序系统实现,其特征在于,包括以下步骤:步骤1:获取所选股票的简称和对应的历史数据;步骤2:对步骤1中获取的股票历史数据进行数据预处理,根据股票简称对股票关系进行预定义扩充;步骤3:利用Infomer算法的encoder部分对完成数据预处理的历史数据进行特征提取;步骤4:使用步骤3特征提取后的数据进行隐藏概念挖掘,之后与预定义的股票关系构成完整的股票关系数据;步骤5:将步骤3特征提取后的数据X={x0,x1,

,x
k
}与步骤4构建的股票关系数据基于KL散度进行相似度判别,来筛选有价值的股票关系,具体公式如下:式中KL(
·
)为kl散度算法,计算每一个股票和与之相关的隐藏关系,如果二者kl散度小于0.5,则舍弃掉该条关系;步骤6:根据筛选后的股票关系构建股票关系超图;步骤7:构建超图卷积算法模型,将步骤3特征提取的结果输入到超图卷积算法模型之中;步骤8:通过损失函数对排名结果与真实股票的排序结果进行对比计算,根据损失函数的值与选择的优化器对模型参数进行反复优化,训练出最终的排序模型;步骤9:根据模型的输出结果,通过股票排名生成器生成排名,选择股票;输入的股票特征数据经过优化后的模型得到输出的排序得分对进行股票选择,以进行指标评价;选择中排名前topN个股票作为假定的客户根据模型结果做出的股票选择:其中sort(
·
)表示降序排序,[:N]表示取前N支股票作为模型本轮选择的用于性能分析的股票组合;步骤10:分析最终给出的股票排名是否符合实际情况,如果偏差值超过设定的标准,则
调整参数重新进行训练;至此完成了从原始的股票历史数据到分析出排名结果的整体方法。4.根据权利要求3所述的一种基于超图的股票历史信息分析排序方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1:股票数据缺失值的填补和去除;步骤2.2:对时间序列类型的股票原始数据进行消峰填谷优化;步骤2.3:进一步优化股票数据,对消峰填谷后的数据进行归一化处理,归一化算法公式为:式中x
i
为归一后的数据,为步骤2.2处理后的数据,∈为防止分母为零设置的极小值;步骤2.4:根据预选择的股票简称列表获取对应的股票关系,由于需要Wikidata获取股票关系,而Wikidata只能通过公司全称来自动获取对应的wikiq

code,因此使用beautifulsoup逐个根据简称爬取GoogleFinance数据,获取简称对应的全称;步骤2.5:使用wikidataAPI中的SPARQL Query Service函数来逐个获取查询股票关系所用的q

code;由于SPARQL Query Service只能使用精确查找,所以根据wikidata的命名规范,使用正则表达式匹配股票全称,以此获取尽可能多的有效预定义关系;步骤2.6:使用wikidataAPI中的Linked Data Interface函数来获取q

code对应的p

code;每个q

code包含多个p

code,每一个p

code表示一种独立的关系;同时这些p

code在一只股票中存在唯一的q

code,表示股票x
i
在关系p
i
中存在属性q
i
;步骤2.7:最后遍历所有股票X;对于股票x
i
与x
j
,分别具有关系集P
i
和P
j
,此时:式中代表了股票x
i
在关系p
m
中对应的类别;对于具有相同的多只股票,且预定义的关系对集存在关系对(p
m
,p
n
),视为在关系对(p
m
,p
n
)中具有相关性,使用字典dict(x
i
)表示所有与股票x
i
相关其他股票,以及他们所属的关系,具体形式如下:dict(x
i
)={x
j
:[p
m
,p
n
],...,x
k
:[p
a
,p
b
]}。5.根据权利要求3所述的一种基于超图的股票历史信息分析排序方法,其特征在于,所述步骤3具体包括以下步骤:步骤3.1:输入股票特征数据集预设的权值矩阵W
Q
、W
K
、W
V
;步骤3.2:分别计算三个权值矩阵与X的乘积,得到对应的Query、Key、Value三个矩阵,公式如下:Q,K,V=X
×
W式中L
Q,K,V
与d是Query、Key、Value的矩阵维度;步骤3.3:计算queries的自注意力稀疏性,随机采样U个点积对进行计算:
U=L
K
InL

【专利技术属性】
技术研发人员:张斌闫宇宵张长胜刘礼铭董兴俊张宸
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1