基于遗传规划的股票年报场景的因子生成方法技术

技术编号:39656975 阅读:11 留言:0更新日期:2023-12-09 11:25
本发明专利技术提供一种基于遗传规划的股票年报场景的因子生成方法,涉及数据处理技术领域,本方法包括以下步骤:该方法按如下步骤执行:步骤1:获取数据;步骤2:数据预处理;步骤3:获取专家经验中的公共函数;步骤4:设置算法参数;步骤5:执行算法;步骤6:生成因子并处理;本发明专利技术结合专家经验生成质量更高的因子,并且在股票年报数据上得到应用

【技术实现步骤摘要】
基于遗传规划的股票年报场景的因子生成方法


[0001]本专利技术涉及数据处理
,尤其涉及一种基于遗传规划的股票年报场景的因子生成方法


技术介绍

[0002]机器学习是人工智能的核心,数据和特征决定了机器学习的上限,而算法和模型只是去逼近这个上限

所以从数据和特征方面提高机器学习的性能是很有必要的

特征在金融领域通常也被称为因子

[0003]因子生成是指根据原始数据或已有因子,通过组合

变换生成新的因子,以获得更丰富

更有效地表达数据信息的因子

因子生成的目的是提取出与问题相关

对机器学习算法有帮助的因子,以便更好地描述数据的特点和关系

[0004]通过寻找那些能够解释数据变化的因子,来揭示数据背后的潜在结构和规律,这有助于我们提炼出最重要的信息并简化数据集,使我们能够更好地理解和解释数据,提高模型的准确性和鲁棒性,从而改善机器学习任务的性能

[0005]因子在股票分析中一直扮演着重要的角色,但是因子在不同场景下由于数据特性

环境变化

投资者行为

因子过度优化以及数据稀缺性等原因所起的作用是不同的

例如
:
在不同的时间段内,市场的波动性

相关性和走势可能会发生变化,这可能会导致某些因子的有效性增强或减弱/>。
因此在使用因子进行分析时,需要考虑到不同的市场环境和情况,并根据实际情况进行灵活调整和适应

因此需要对不同的场景生成不同因子

[0006]现在的因子发现工作大多数是由人工来完成,对研究人员有很高的要求

因为不同的领域会有不同的应用场景,需要对不同的应用场景来进行特定的因子发现

这就需要对应的工作人员对当前领域的背景知识有着充分的了解,并且对该领域的数据集有着很深的研究,同时需要大量的因子生成的经验,才可以完成这一工作

研究人员需要对原始数据集中存在的部分模式

结构上的信息进行总结提取,以此来进行因子生成

例:根据领域专家的知识和经验,结合相关的理论和实证研究,选择和组合变量进行因子生成;根据因子的重要性和贡献程度,为每个因子赋予一个权重,并将它们加权求和,得到一个新的组合因子

[0007]然而,人工生成的因子存在以下几个主要缺陷

首先,它受到主观性和主观偏见的影响,依赖于领域专家的主观判断和经验

不同的专家可能会根据自己的理解和经验选择不同的因子和组合方式,导致生成的因子结果不同

其次,人工生成的因子通常基于已有的数据和因子进行分析,在数据集有限或缺乏相关的数据时,可能无法全面有效地反映因子的关系和影响

最后,不同领域甚至同一领域的不同应用场景下的因子都不能进行迁移,一旦人工生成的因子确定,往往难以对其进行优化和更新

如果新的数据

新的变量或新的理论出现,可能需要重新进行生成和调整,增加了时间和资源成本

[0008]为了解决人工成本高,容易陷入个人经验主义等问题,研究人员开始研究自动因子生成方法

遗传规划算法被用来因子生成

遗传规划是一种进化搜索算法,模拟达尔文的
进化论来不断迭代产生优秀个体,它可以动态构建树状个体,这些个体可以转换为逻辑和数学表达式

因此,由于其灵活的表示机制,遗传规划非常适合完成自动的因子生成任务

[0009]Qinglan Fan
等人提出了一种具有新程序表示法

新函数和新终端的遗传规划方法能够自动

同步地进行特征提取

特征构建和分类
。Binh Tran
等人在高维分类问题中使用遗传规划进行特征构建和选择,在大多数情况下可以显著降低维数,保持甚至提高分类精度
。Bo Peng
等人提出基于遗传规划的多视图特征构建方法,并结合集成学习的思想,从多个视图自动构建高级特征,利用少量训练样本构建有效的集成来识别不同类型的故障

[0010]然而,这些研究虽然都能进行因子构建,但是仅仅考虑了遗传规划算法本身,没有结合专家经验

实际上,专家经验包含着丰富的有效信息,可以提供领域知识,有助于加速搜索过程

引入先验知识

算法快速收敛等,并且在特定场景下起到重要作用

在实际应用中,结合遗传规划算法和专家经验的方法可以更加有效地解决问题,提高算法的性能和可解释性


技术实现思路

[0011]针对现有技术的不足,本专利技术提供一种基于遗传规划的股票年报场景的因子生成方法,针对特定场景股票年报场景,将专家的经验与遗传规划算法相结合,充分利用专家的经验使算法快速收敛,以产生更具针对性和可解释性的因子,来提高发现的因子集的质量

[0012]一种基于遗传规划的股票年报场景的因子生成方法,包括以下步骤:
[0013]步骤1:获取年报数据和股票历史行情数据作为终端集
Terminal Set

[0014]步骤2:对步骤1获取的年报数据和股票历史行情数据进行预处理;
[0015]步骤
2.1
:选取年报数据
,
具体包括:净利润同比增长率
inc_net_profit_year_on_year、
净资产收益率
roe、
营业利润同比增长率
inc_operation_profit_year_on_year
;营业总收入同比增长率
inc_total_revenue_year_on_year

[0016]步骤
2.2
:根据年报数据进行分类;
[0017]根据净利润同比增长率和净资产收益率这两个特征共同对数据集进行了分类,其中数据集包括来自不同行业以及不同年份的股票数据,分类标准为
:
净利润同比增长率按照
{

∞,

50

}、{

50

,0

}、{0

,50

}、{50

,+∞}
分为四个区间,净资产收益率按照
{

∞,

15

}、{

15
%本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于遗传规划的股票年报场景的因子生成方法,其特征在于,包括以下步骤:步骤1:获取年报数据和股票历史行情数据作为终端集
Terminal Set
;步骤2:对步骤1获取的年报数据和股票历史行情数据进行预处理;步骤3:从聚宽数据网站获取聚宽因子集,从聚宽因子集中抽取函数添加到原始函数集,形成函数集
Function Set
;步骤4:设置遗传规划算法执行所需要的数据集以及参数;步骤5:将终端集
Terminal Set
和函数集
Function Set
作为输入变量输入到遗传规划算法中进行因子生成;步骤6:对步骤5生成的因子进行处理,完成因子的生成;步骤7:把步骤2预处理后的数据,通过步骤6生成的因子转换成生成新的数据集;步骤8:把步骤7得到的新的数据集作为输入数据,输到评估模型中,通过用决策树

梯度提升树

随机森林三种评估模型来评估原始数据和新数据;步骤9:以不同的评价指标作为评估模型的结果,来验证生成因子的有效性,若指标未达到设定阈值,则返回步骤5重新调整算法参数,若指标达到设定阈值,则保留生成的因子;由此完成了整体从数据和函数获取及处理到遗传规划算法执行生成因子再到因子评估模型用评价指标对因子进行评价的过程
。2.
根据权利要求1所述的基于遗传规划的股票年报场景的因子生成方法,其特征在于,所述步骤2具体包括以下步骤:步骤
2.1
:选取年报数据
,
具体包括:净利润同比增长率
inc_net_profit_year_on_year、
净资产收益率
roe、
营业利润同比增长率
inc_operation_profit_year_on_year
;营业总收入同比增长率
inc_total_revenue_year_on_year
;步骤
2.2
:根据年报数据进行分类;根据净利润同比增长率和净资产收益率这两个特征共同对数据集进行了分类,其中数据集包括来自不同行业以及不同年份的股票数据,分类标准为
:
净利润同比增长率按照
{

∞,

50

}、{

50

,0

}、{0

,50

}、{50

,+∞}
分为四个区间,净资产收益率按照
{

∞,

15

}、{

15

,0

}、{0

,15

}、{15

,+∞}
分为四个区间,这两组数据两两组合,共形成
16
组类别,每个类别里有符合条件的两只股票数据;步骤
2.3
:选取股票历史行情数据:开盘价
open、
收盘价
close、
最高价
high、
最低价
low、
换手率
turnover_ratio、
交易量
volume
;步骤
2.4
:建立终端集
Terminal Set
的数据组成,其形式为:
Terminal Set{open,high,close,low,volume,turnover_ratio,roe,inc_net_profit_year_on_year,inc_operation_pr ofit_year_on_year,inc_total_revenue_year_on_year}
;步骤
2.5
:分别对年报数据和股票历史行情数据进行归一化处理;所述归一化处理具体为:获得每一个因子的最大值和最小值,计算最值之间的距离,使用因子本来的数值除以最值之间的距离作为归一化后的值,具体的公式为:其中
x
new
表示因子进行归一化以后的值,
x
old
表示因子原来的值,
x
max
表示当前因子所有数值中的最大值,
x
min
表示当前因子所有数字中的最小值

3.
根据权利要求1所述的基于遗传规划的股票年报场景的因子生成方法,其特征在于,所述步骤3具体包括以下步骤:步骤
3.1
:设置原始函数集,其中包含四种操作函数,分别为:
+、

【专利技术属性】
技术研发人员:颜为民陈伟成付尧张长胜
申请(专利权)人:沈阳市麟龙数字信息产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1