股票收益率预测方法、装置、电子设备及介质制造方法及图纸

技术编号：36193185 阅读：21 留言：0更新日期：2022-12-31 21:13

本公开提供了一种股票收益率预测方法，涉及人工智能技术领域。该方法包括：获取当前交易日的至少一个测试数据集，其中，所述测试数据集从原始股票特征数据中拆分得到，所述原始股票特征数据包括原始量价数据、中间特征数据和未定义因子数据；将至少一个所述测试数据集输入训练好的股票收益率预测模型，提取潜在因子序列，其中，所述潜在因子序列具有预设维度且与股票收益率的排序准确度相关；将所述潜在因子序列再次输入所述股票收益率预测模型，预测下一个交易日的目标收益率。本公开还提供了一种股票收益率预测装置、设备、存储介质和程序产品。序产品。序产品。

全部详细技术资料下载

【技术实现步骤摘要】
股票收益率预测方法、装置、电子设备及介质
[0001]分案说明
[0002]本申请是申请号为202210002469.3、申请日为2022年1月4日、专利技术名称为“股票收益率预测方法、装置、电子设备及介质”的专利技术专利申请的分案申请，其全部内容通过引用结合在本申请中。

[0003]本公开涉及人工智能
，具体涉及量化投资
，更具体地涉及一种股票收益率预测方法、装置、电子设备及介质。

技术介绍

[0004]在量化投资中，主要是通过择时和选股，来设计自己的换仓策略，已达到股票收益的最大化，其中选股主要通过挖掘出α因子或聪明β对股票收益率做出准确的预测。股票收益率预测不仅需要对模型的可解释性提出要求，以避免过多的人为因素的干扰，也需要对模型的可分析或可对比性提出要求，以避免主观因素带来的营私舞弊风险。
[0005]目前流行的股票收益率预测主要采用线性回归或循环神经网络方法，但是两者各有各的弊端，需要进一步优化。例如，线性回归通过几个因子的算术平均值或者加权平均值完成对收益率的预测，各个因子的线性贡献是明确的，天然具备很高的可解释性，但是线性回归依赖因子的质量，而且其对高维空间高维特征的拟合能力十分有限，具体例如线性回归模型的适用场景随着风格轮动或者行业轮动而一直在变化。又例如，循环神经网络通过高维函数的方式，对收益率的预测具备超高维数据拟合的能力，能够挖掘出很多线性方法无法识别的规律，但是其“黑盒特性”使得其在行业应用存在较大的可控性风险，无法得到相关人员的信任。
[0006]...

【技术保护点】

【技术特征摘要】
1.一种股票收益率预测方法，包括：获取当前交易日的至少一个测试数据集，其中，所述测试数据集从原始股票特征数据中拆分得到，所述原始股票特征数据包括原始量价数据、中间特征数据和未定义因子数据；将至少一个所述测试数据集输入训练好的股票收益率预测模型，提取潜在因子序列，其中，所述潜在因子序列具有预设维度且与股票收益率的排序准确度相关；将所述潜在因子序列再次输入所述股票收益率预测模型，预测下一个交易日的目标收益率；其中，所述股票收益率预测模型依次包括双层LSTM网络层、全连接层、隐因子层和预测层，其中，所述双层LSTM网络层依次包括第一LSTM层和第二LSTM层，所述双层LSTM网络层不做隐藏状态或细胞状态共享，所述第一LSTM层用于学习低阶时序特征，所述第二LSTM层用于学习相较于所述低阶时序特征高阶的特征；所述全连接层用于接收所述双层LSTM网络层输出的特征向量，所述隐因子层在所述输出的特征向量中依次提取预设维度且与股票收益率排序准确度相关的潜在因子分量，构成潜在因子序列，所述全连接层和隐因子层内部采用激活函数tanh；所述预测层用于根据所述潜在因子序列来预测目标收益率，所述预测层不引入激活函数。2.根据权利要求1所述的方法，其中，所述股票收益率预测模型根据以下方式训练得到：获取多个历史时段的原始股票特征数据，将所述原始股票特征数据拆分为训练数据集和测试数据集；对所述训练数据集进行特征工程处理，得到标准样本集；根据预设分批策略对所述标准样本集进行分批，得到每批标准样本集；分别以按日分批的收益率的秩和隐因子层的相关系数为目标函数，将所述每批标准样本集输入股票收益率预测模型进行训练，得到训练好的股票收益率预测模型。3.根据权利要求1或2所述的方法，其中，所述原始量价数据包括开盘价、收盘价、当日最高价、当日最低价、成交量加权平均价、换手率和交易量；所述中间特征数据包括动量、变异系数、偏度和峰度系数；所述未定义因子数据通过因子搜索算法挖掘得出。4.根据权利要求2所述的方法，其中，所述特征工程处理依次包括：将所述训练数据集按照时间顺序进行排序；利用极值推压方法剔除所述训练数据集中的部分极值；将剔除极值后的训练数据集通过标准化转换为服从标准正态分布的标准数据集；按照日期截面对所述标准数据集进行标准化，得到标准样本集。5.根据权利要求4所述的方法，其中，所述极值推压方法包括以下步骤：将所述训练数据集表示为原矩阵，计算所述原矩阵的中值矩阵和中值距离矩阵；根据所述中值矩阵和中值距离矩阵，确定特征最大值矩阵和特征最小值矩阵；对所述原矩阵按照所述特征最大值矩阵和特征最小值矩阵进行裁剪，得到线性矩阵和差异矩阵；利用指数函数为所述差异矩阵赋值非线性权重，根据所述线性矩阵、差异矩阵以及所
述差异矩阵的非线性权重，确定剔除极值后的训练数据集。6.根据权利要求5所述的方法，其中，所述剔除极值后的训练数据集根据以下公式计算得出：lower＝median
‑3×
dist
median
upper＝median+3
×
dist
median
linear＝clip(lower，upper)diff＝source
‑
linearnonlinear
weights
＝1
‑
(alpha
diff
)2ret＝linear+diff
×
nonlinear
weights
式中，source表示原矩阵；median表示中值矩阵；dist
median
表示中值距离矩阵；lower表示特征最大值矩阵；upper表示特征最小值矩阵；linear表示线性矩阵；clip(lower，upper)表示在输入阈值处修剪值，以将边界外的值指定给边界值lower或者upper；diff表示差异矩阵；nonlinear
weights
表示非线性权重；alpha表示股票阿尔法因子；ret表示剔除极值后的训练数据集矩阵。7.根据权利要求2所述的方法，其中，所述根据预设分批策略对所述标准样本集进行分批，得到每批标准样本集，包括以下方式的至少一种：将所述标准样本集通过map
‑
type方式提取日期截面数据作为分批的标准样本集；预先采用多进程异步加...

【专利技术属性】
技术研发人员：李胜浩，杨帆，吴皓，李孜，
申请(专利权)人：工银瑞信基金管理有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人