一种基于时序卷积和图神经网络的股票收益排序系统技术方案

技术编号:35354628 阅读:17 留言:0更新日期:2022-10-26 12:29
本发明专利技术提供基于时序卷积和图神经网络的股票收益排序系统,包括:交易数据预处理模块,其以若干个股票作为输入,输出由归一化的股票样本数据,股票样本数据包括交易特征数据张量、真实收益率张量和插值旗标张量;基于时序卷积和图神经网络的股票收益预测模块,其以所述股票交易特征数据张量和插值旗标张量为输入,输出预测收益率张量。本发明专利技术以多尺度的时序卷积方法挖掘并整合股票的长期和短期的依赖关系;以插值方法和插值旗标在最大化利用已有的股票数据的同时,实现对交易日上不连续的交易数据的建模,更好地适应现实市场环境中经常出现的股票停牌现象,缓解现有停牌插值方法给模型学习带来的困难,使得系统在真实场景中具有更强的鲁棒性。具有更强的鲁棒性。具有更强的鲁棒性。

【技术实现步骤摘要】
一种基于时序卷积和图神经网络的股票收益排序系统


[0001]本专利技术涉及计算机数据分析领域,更具体地,涉及一种基于时序卷积和图神经网络的股票收益排序系统。

技术介绍

[0002]预测股票收益隶属于数据挖掘领域。数据挖掘指的是从海量数据中发现隐藏的模式信息的过程,可以用来预测未来的观测结果。预测股票的收益变化,一个基本假设是股票的未来变化能从其历史的变化模式中推断。因此,能否充分挖掘股票历史数据中隐含的关系,是评价一个股票预测模型好坏的重要标准。
[0003]预测股票收益是一种时间序列分析问题。具体来说,给定指定的股票在过去一段时间内的交易数据,预测其未来一段时间的价格变化率。根据模型的需要,交易数据既可以是价格、交易量等原始数据,也可以是价格变化率、方差等统计指标。
[0004]传统上,这类方法可使用线性回归、卡尔曼滤波等方法进行分析。这类模型将股票交易表示成随机过程,然后利用历史数据进行拟合。但是,传统的拟合方式严重依赖特定交易指标的局部性质,需要大量的人工先验知识,而且缺乏描述股票市场中多因素相互影响的能力。随着深度学习的发展,依靠深度模型的自动特征挖掘能力,以递归神经网络(RNN)尤其是长短期记忆单元(LSTM)为代表的时序预测模型对此给出了较好的解决方案。但是,由于其结构的递归性质,递归神经网络在挖掘长期依赖的特征上存在固有缺陷,且存在梯度消失等问题。另一方面,股票市场受长期因素(如公司本身的过往业绩)、短期因素(如公共卫生事件等突发事件)和市场整体(如相同产业其他股票的发展趋势和大盘的整体情况)的多种影响。目前的流行方法大都将每个股票的交易数据视为孤立的时间序列,不能很好地挖掘股票之间的关系特征,这会阻碍其对股票趋势的正确判别。此外,神经网络模型对输入数据的完整性往往有较高的要求,而股票停牌等事件带来的数据缺失等问题会影响模型的实际表现。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种基于时序卷积和图神经网络的股票收益排序系统。
[0006]根据本专利技术的一个方面,提供一种基于时序卷积和图神经网络的股票收益排序系统,包括:
[0007]交易数据预处理模块,该模块以若干个股票作为输入,输出归一化的股票样本数据,所述股票样本数据包括交易特征数据张量、真实收益率张量和插值旗标张量;
[0008]基于时序卷积和图神经网络的股票收益预测模块,该模块以所述股票交易特征数据张量和插值旗标张量为输入,输出预测收益率张量;在训练期间,该模块还以真实收益率张量为输入。
[0009]优选地,所述交易数据预处理模块,包括:
[0010]归一化一组股票交易特征数据,获得归一化特征数据;
[0011]根据所述归一化特征数据,为股票停牌日空缺的数据进行插值;
[0012]根据归一化插值后的完整数据,计算特征的日变化量数据作为补充特征;
[0013]根据补充特征后的完整数据,生成归一化股票交易特征数据张量、真实收益率张量和插值旗标张量构成的样本数据。
[0014]优选地,所述归一化一组股票交易特征数据,获得归一化特征数据,包括:一组股票交易特征数据包括多个股票在选定时间范围内各自的交易数据,包括:当日开盘价、收盘价、最大价格、最小价格和交易量;
[0015]将每一个股票的所有交易数据按照时间先后顺序排列,
[0016]对于任意一个股票,将该股票的所有交易数据的开盘价、收盘价、最大价格、最小价格除以这4个特征量共有的最小上界;
[0017]将该股票所有交易数据的交易量除以该股票交易量的最大值。
[0018]优选地,所述根据归一化特征数据,为股票停牌日空缺的数据进行插值,包括三种情况:
[0019]股票当前正处于停牌状态,即股票在以最后一个交易日终止的连续交易日序列上停牌,则对交易量零填充,对其他特征常量填充;
[0020]股票在过去的某一交易日或连续若干交易日内处于停牌状态,从停牌首日开始到停牌结束日为止,计算该组交易数据中其他仍在交易的股票相对于一交易日的变化率的平均值;基于该股票在停牌前一交易日的交易数据,使用上述平均变化率按时间序进行插值;
[0021]股票最早的交易记录比该组交易数据中最早开始交易的股票晚,从该股票交易首日开始,计算该组交易数据中其他仍在交易的股票相对于下一交易日的变化率的平均值;基于该股票在最早的交易日的交易数据,使用上述平均变化率进行按逆时间序进行插值。
[0022]优选地,所述根据归一化插值后的完整数据,计算特征的日变化量数据作为补充特征,包括:对于每一个股票的每一条交易数据,分别计算5条特征在当日相对于前一个交易日的变化量,即前后做差;
[0023]其中,第一个交易日的变化量等于其本身,即相对于0的差;
[0024]以变化量作为额外的5条特征量,对每个交易日构造10维的归一化特征数据向量。
[0025]优选地,所述根据补充特征后的完整数据,生成归一化股票交易特征数据张量、真实收益率张量和插值旗标张量构成的样本数据,包括:
[0026]输入本模块的m只股票经插值后,在交易日序列经插值后,在交易日序列上均有归一化的特征数据向量定义,所述m只股票以某个交易日d
k+1
开始长度p的子序列上也有定义;
[0027]归一化股票交易特征数据张量即由子序列上定义的特征数据向量构造而成,包含m个股票数量维度、p个时间维度和10个特征数据维度;
[0028]x
j
=[f(s
j
,d
k+1
),f(s
j
,d
k+2
),

,f(s
j
,d
k+p
)][0029]X=[x1,x2,

,x
m
][0030]交易日子序列后,设未来交易日子序列是长度为w的一个连续的交易日子序列真实收益率张量是其最后一天的收盘价close(s
j
,d
k+p+w
)相对于第一天的开盘价open(s
j
,d
k+p+1
)的变化率,即
[0031][0032]Y=[y1,y2,

,y
m
][0033]插值旗标张量是记录特征数据是否插值的旗标张量在训练期间,Z
i
=0当且仅当多于插值旗标阈值r(r<p)个的f(s
j
,d
i
)∈x
j
、f(s
j
,d
k+p+w
)或f(s
j
,d
k+p+1
)是通过插值计算得到,否则Z
i
=1;在非训练期间,Z
i
=1恒成立。
[0034]优选地,所述基于时序卷积和图神经网络的股票收益预测模块,包括:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序卷积和图神经网络的股票收益排序系统,其特征在于,包括:交易数据预处理模块,该模块以若干个股票作为输入,输出归一化的股票样本数据,所述股票样本数据包括交易特征数据张量、真实收益率张量和插值旗标张量;基于时序卷积和图神经网络的股票收益预测模块,该模块以所述股票交易特征数据张量和插值旗标张量为输入,输出预测收益率张量;训练期间,该模块还以真实收益率张量为输入。2.根据权利要求1所述的基于时序卷积和图神经网络的股票收益排序系统,其特征在于,所述交易数据预处理模块,包括:归一化一组股票交易特征数据,获得归一化特征数据;根据所述归一化特征数据,为股票停牌日空缺的数据进行插值;根据归一化插值后的完整数据,计算特征的日变化量数据作为补充特征;根据补充特征后的完整数据,生成归一化股票交易特征数据张量、真实收益率张量和插值旗标张量构成的样本数据。3.根据权利要求2所述的基于时序卷积和图神经网络的股票收益排序系统,其特征在于,所述归一化一组股票交易特征数据,获得归一化特征数据,包括:一组股票交易特征数据包括多个股票在选定时间范围内各自的交易数据,包括:当日开盘价、收盘价、最大价格、最小价格和交易量;将每一个股票的所有交易数据按照时间先后顺序排列,对于任意一个股票,将该股票的所有交易数据的开盘价、收盘价、最大价格、最小价格除以这4个特征量共有的最小上界;将该股票所有交易数据的交易量除以该股票交易量的最大值。4.根据权利要求2所述的基于时序卷积和图神经网络的股票收益排序系统,其特征在于,所述根据归一化特征数据,为股票停牌日空缺的数据进行插值,包括三种情况:股票当前正处于停牌状态,即股票在以最后一个交易日终止的连续交易日序列上停牌,则对交易量零填充,对其他特征常量填充;股票在过去的某一交易日或连续若干交易日内处于停牌状态,从停牌首日开始到停牌结束日为止,计算该组交易数据中其他仍在交易的股票相对于一交易日的变化率的平均值,获得平均变化率;基于该股票在停牌前一交易日的交易数据,使用所述平均变化率按时间序进行插值;股票最早的交易记录比该组交易数据中最早开始交易的股票晚,从该股票交易首日开始,计算该组交易数据中其他仍在交易的股票相对于下一交易日的变化率的平均值,获得平均变化率;基于该股票在最早的交易日的交易数据,使用所述平均变化率进行按逆时间序进行插值。5.根据权利要求2所述的基于时序卷积和图神经网络的股票收益排序系统,其特征在于,所述根据归一化插值后的完整数据,计算特征的日变化量数据作为补充特征,包括:对于每一个股票的每一条交易数据,分别计算5条特征在当日相对于前一个交易日的变化量;其中,第一个交易日的变化量等于其本身,即相对于0的差;以所述变化量作为额外的5条特征量,对每个交易日构造10维的归一化特征数据向量。6.根据权利要求2所述的基于时序卷积和图神经网络的股票收益排序系统,其特征在
于,所述根据补充特征后的完整数据,生成归一化股票交易特征数据张量、真实收益率张量和插值旗标张量构成的样本数据,包括:输入本模块的m只股票经插值后,在交易日序列经插值后,在交易日序列上均有归一化的特征数据向量定义,所述m只股票以某个交易日d
k+1
开始长度p的子序列上有定义;归一化股票交易特征数据...

【专利技术属性】
技术研发人员:陈海健王韫博高思宇尚昆戴嵩李文逍徐伟仇凌枫王磊史春奇王梦寒查璐琰
申请(专利权)人:中国太平洋保险集团股份有限公司长江养老保险股份有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1