股票收益率预测方法、装置、电子设备及介质制造方法及图纸

技术编号:36193185 阅读:21 留言:0更新日期:2022-12-31 21:13
本公开提供了一种股票收益率预测方法,涉及人工智能技术领域。该方法包括:获取当前交易日的至少一个测试数据集,其中,所述测试数据集从原始股票特征数据中拆分得到,所述原始股票特征数据包括原始量价数据、中间特征数据和未定义因子数据;将至少一个所述测试数据集输入训练好的股票收益率预测模型,提取潜在因子序列,其中,所述潜在因子序列具有预设维度且与股票收益率的排序准确度相关;将所述潜在因子序列再次输入所述股票收益率预测模型,预测下一个交易日的目标收益率。本公开还提供了一种股票收益率预测装置、设备、存储介质和程序产品。序产品。序产品。

【技术实现步骤摘要】
股票收益率预测方法、装置、电子设备及介质
[0001]分案说明
[0002]本申请是申请号为202210002469.3、申请日为2022年1月4日、专利技术名称为“股票收益率预测方法、装置、电子设备及介质”的专利技术专利申请的分案申请,其全部内容通过引用结合在本申请中。


[0003]本公开涉及人工智能
,具体涉及量化投资
,更具体地涉及一种股票收益率预测方法、装置、电子设备及介质。

技术介绍

[0004]在量化投资中,主要是通过择时和选股,来设计自己的换仓策略,已达到股票收益的最大化,其中选股主要通过挖掘出α因子或聪明β对股票收益率做出准确的预测。股票收益率预测不仅需要对模型的可解释性提出要求,以避免过多的人为因素的干扰,也需要对模型的可分析或可对比性提出要求,以避免主观因素带来的营私舞弊风险。
[0005]目前流行的股票收益率预测主要采用线性回归或循环神经网络方法,但是两者各有各的弊端,需要进一步优化。例如,线性回归通过几个因子的算术平均值或者加权平均值完成对收益率的预测,各个因子的线性贡献是明确的,天然具备很高的可解释性,但是线性回归依赖因子的质量,而且其对高维空间高维特征的拟合能力十分有限,具体例如线性回归模型的适用场景随着风格轮动或者行业轮动而一直在变化。又例如,循环神经网络通过高维函数的方式,对收益率的预测具备超高维数据拟合的能力,能够挖掘出很多线性方法无法识别的规律,但是其“黑盒特性”使得其在行业应用存在较大的可控性风险,无法得到相关人员的信任。
[0006]随着资产管理行业在金融科技领域投入的持续加大,AT(Artificial Intelligence,人工智能)算法在量化投资领域的应用越来越成为研究热点。

技术实现思路

[0007]针对现有技术的上述不足,本公开提供一种股票收益率预测方法、装置、电子设备及介质。
[0008]根据本公开的第一个方面,提供了一种股票收益率预测方法,包括:获取多个历史时段的原始股票特征数据,将原始股票特征数据拆分为训练数据集和测试数据集;对训练数据集进行特征工程处理,得到标准样本集;根据预设分批策略对标准样本集进行分批,得到每批标准样本集;分别以按日分批的收益率的秩和隐因子层的相关系数为目标函数,将每批标准样本集输入股票收益率预测模型进行训练,得到训练好的股票收益率预测模型。
[0009]本公开的第二方面提供了一种股票收益率预测装置,包括:数据获取模块,用于获取多个历史时段的原始股票特征数据,将原始股票特征数据拆分为训练数据集和测试数据集;特征工程处理模块,用于对训练数据集进行特征工程处理,得到标准样本集;样本分批
模块,用于根据预设分批策略对标准样本集进行分批,得到每批标准样本集;模型训练模块,用于分别以按日分批的收益率的秩和隐因子层的相关系数为目标函数,将每批标准样本集输入股票收益率预测模型进行训练,得到训练好的股票收益率预测模型。
[0010]本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述股票收益率预测方法。
[0011]本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述股票收益率预测方法。
[0012]本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述股票收益率预测方法。
[0013]与现有技术相比,本公开提供的股票收益率预测方法、装置、电子设备及介质,至少具有以下有益效果:
[0014](1)本公开克服已有的线性回归和循环神经网络(Recurrent Neural Network,RNN)的缺点并整合两者的优点,对学习目标做进一步优化,提升了对股票特征的拟合能力。
[0015](2)本公开引入了秩序相关和正交分解,在股票预测具备横向秩预测能力外,较好地消除了原有因子之间的共线性,提升了线性回归的拟合能力,使得机器学习模型有一定的局部可解释性。
[0016](3)本公开通过构造新的潜在因子,在同一个坐标空间下,提升了对股票收益率在神经网络下预测的局部线性可解释性,以及不同股票之间的可对比性。
附图说明
[0017]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
[0018]图1示意性示出了根据本公开实施例的股票收益率预测方法的流程图;
[0019]图2示意性示出了根据本公开实施例的特征工程处理的流程图;
[0020]图3示意性示出了根据本公开实施例的极值推压方法的流程图;
[0021]图4示意性示出了根据本公开实施例的预设分批策略的设置流程图;
[0022]图5示意性示出了根据本公开实施例的股票收益率预测模型的网络结构图;
[0023]图6示意性示出了根据本公开实施例的目标函数设置的流程图;
[0024]图7示意性示出了根据本公开实施例的混淆训练的原理图;
[0025]图8示意性示出了根据本公开实施例的五折交叉验证方法的流程图;
[0026]图9示意性示出了根据本公开实施例的股票收益率预测方法的操作流程图;
[0027]图10示意性示出了根据本公开另一实施例的股票收益率预测方法的流程图;
[0028]图11(a)示意性示出了根据本公开实施例的股票收益率预测的效果图;
[0029]图11(b)示意性示出了根据本公开实施例的目标收益率等级预分箱的分布图;
[0030]图12示意性示出了根据本公开一实施例的股票收益率预测装置的框图;
[0031]图13示意性示出了根据本公开另一实施例的股票收益率预测装置的框图;
[0032]图14示意性示出了根据本公开实施例的适于实现股票收益率预测方法的电子设备的方框图。
具体实施方式
[0033]以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0034]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0035]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0036]在使用类似于“A、B和C等中至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种股票收益率预测方法,包括:获取当前交易日的至少一个测试数据集,其中,所述测试数据集从原始股票特征数据中拆分得到,所述原始股票特征数据包括原始量价数据、中间特征数据和未定义因子数据;将至少一个所述测试数据集输入训练好的股票收益率预测模型,提取潜在因子序列,其中,所述潜在因子序列具有预设维度且与股票收益率的排序准确度相关;将所述潜在因子序列再次输入所述股票收益率预测模型,预测下一个交易日的目标收益率;其中,所述股票收益率预测模型依次包括双层LSTM网络层、全连接层、隐因子层和预测层,其中,所述双层LSTM网络层依次包括第一LSTM层和第二LSTM层,所述双层LSTM网络层不做隐藏状态或细胞状态共享,所述第一LSTM层用于学习低阶时序特征,所述第二LSTM层用于学习相较于所述低阶时序特征高阶的特征;所述全连接层用于接收所述双层LSTM网络层输出的特征向量,所述隐因子层在所述输出的特征向量中依次提取预设维度且与股票收益率排序准确度相关的潜在因子分量,构成潜在因子序列,所述全连接层和隐因子层内部采用激活函数tanh;所述预测层用于根据所述潜在因子序列来预测目标收益率,所述预测层不引入激活函数。2.根据权利要求1所述的方法,其中,所述股票收益率预测模型根据以下方式训练得到:获取多个历史时段的原始股票特征数据,将所述原始股票特征数据拆分为训练数据集和测试数据集;对所述训练数据集进行特征工程处理,得到标准样本集;根据预设分批策略对所述标准样本集进行分批,得到每批标准样本集;分别以按日分批的收益率的秩和隐因子层的相关系数为目标函数,将所述每批标准样本集输入股票收益率预测模型进行训练,得到训练好的股票收益率预测模型。3.根据权利要求1或2所述的方法,其中,所述原始量价数据包括开盘价、收盘价、当日最高价、当日最低价、成交量加权平均价、换手率和交易量;所述中间特征数据包括动量、变异系数、偏度和峰度系数;所述未定义因子数据通过因子搜索算法挖掘得出。4.根据权利要求2所述的方法,其中,所述特征工程处理依次包括:将所述训练数据集按照时间顺序进行排序;利用极值推压方法剔除所述训练数据集中的部分极值;将剔除极值后的训练数据集通过标准化转换为服从标准正态分布的标准数据集;按照日期截面对所述标准数据集进行标准化,得到标准样本集。5.根据权利要求4所述的方法,其中,所述极值推压方法包括以下步骤:将所述训练数据集表示为原矩阵,计算所述原矩阵的中值矩阵和中值距离矩阵;根据所述中值矩阵和中值距离矩阵,确定特征最大值矩阵和特征最小值矩阵;对所述原矩阵按照所述特征最大值矩阵和特征最小值矩阵进行裁剪,得到线性矩阵和差异矩阵;利用指数函数为所述差异矩阵赋值非线性权重,根据所述线性矩阵、差异矩阵以及所
述差异矩阵的非线性权重,确定剔除极值后的训练数据集。6.根据权利要求5所述的方法,其中,所述剔除极值后的训练数据集根据以下公式计算得出:lower=median
‑3×
dist
median
upper=median+3
×
dist
median
linear=clip(lower,upper)diff=source

linearnonlinear
weights
=1

(alpha
diff
)2ret=linear+diff
×
nonlinear
weights
式中,source表示原矩阵;median表示中值矩阵;dist
median
表示中值距离矩阵;lower表示特征最大值矩阵;upper表示特征最小值矩阵;linear表示线性矩阵;clip(lower,upper)表示在输入阈值处修剪值,以将边界外的值指定给边界值lower或者upper;diff表示差异矩阵;nonlinear
weights
表示非线性权重;alpha表示股票阿尔法因子;ret表示剔除极值后的训练数据集矩阵。7.根据权利要求2所述的方法,其中,所述根据预设分批策略对所述标准样本集进行分批,得到每批标准样本集,包括以下方式的至少一种:将所述标准样本集通过map

type方式提取日期截面数据作为分批的标准样本集;预先采用多进程异步加...

【专利技术属性】
技术研发人员:李胜浩杨帆吴皓李孜
申请(专利权)人:工银瑞信基金管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1