System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种特征筛选方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种特征筛选方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41156751 阅读:4 留言:0更新日期:2024-04-30 18:20
本公开涉及一种特征筛选方法、装置、电子设备及存储介质,尤其涉及金融量化技术领域。包括:获取原始时序;对原始时序进行线性关系检验和因果检验,以筛选得到中间特征子集;利用中间特征子集训练初始模型得到第一模型,并计算第一模型的模型误差;计算中间特征子集对应的多个特征的重要性参数,并根据所述多个特征的重要性参数从中间特征子集中选择得到目标特征子集;利用目标特征子集重新训练初始模型得到第二模型,并计算第二模型的模型误差;在第二模型的模型误差与第一模型的模型误差之间的误差差值小于或等于预设差值的情况下,确定保留目标特征子集。本公开可以剔除无效特征,解决维数灾难和过拟合的问题。

【技术实现步骤摘要】

本公开涉及金融量化,尤其涉及一种特征筛选方法、装置、电子设备及存储介质


技术介绍

1、金融量化,就是一种随着信息技术、数学模型、数据分析等技术的发展并借助这些技术、理念的加成而生发出来的新业态。在金融量化
,量化人员一般会衍生大量的因子特征来训练模型,以预测捕捉数据的潜在规律,但是,在模型训练过程中,过多的特征会导致模型出现维数灾难(curse of dimensionality)和过拟合的问题,这使得模型训练时的计算量庞大,耗时长,且消耗过多资源,而且训练所得到的模型泛化能力差,预测结果的可靠性低。


技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种特征筛选方法、装置、电子设备及存储介质,可以剔除无效特征,降低特征复杂度,从而提升模型训练的效率,增强模型的泛化能力。

2、为了实现上述目的,本公开实施例提供的技术方案如下:

3、第一方面,本公开提供一种特征筛选方法,包括:获取原始时序;对原始时序进行线性关系检验和因果检验,以筛选得到中间特征子集;利用中间特征子集训练初始模型得到第一模型,并计算第一模型的模型误差;计算中间特征子集对应的多个特征的重要性参数,并根据多个特征的重要性参数从中间特征子集中选择得到目标特征子集;利用目标特征子集重新训练初始模型得到第二模型,并计算第二模型的模型误差;在第二模型的模型误差与第一模型的模型误差之间的误差差值小于或等于预设差值的情况下,确定保留目标特征子集。

4、作为本公开实施例一种可选的实施方式,获取原始时序包括:获取待处理时序;对待处理时序进行预处理,得到原始时序;其中,预处理包括以下至少一项:平滑处理、滤波处理、分数阶差分处理和时序分解处理。

5、作为本公开实施例一种可选的实施方式,对原始时序进行线性关系检验和因果检验,以筛选得到中间特征子集,包括:对原始时序进行线性关系检验,线性关系检验包括相关性检验和显著性检验;在原始时序通过线性关系检验的情况下,对原始时序进行因果检验;在原始时序通过因果检验的情况下,提取原始时序的特征得到中间特征子集。

6、作为本公开实施例一种可选的实施方式,原始时序包括多个单变量时序;对原始时序进行线性关系检验,包括:针对原始时序中的任一单变量时序执行如下操作,直至遍历完所有单变量时序:计算当前时刻的单变量时序与下一时刻的预设单变量时序之间的线性相关系数;在线性相关系数大于第一预设阈值的情况下,计算当前时刻的单变量时序与下一时刻的预设单变量时序之间的显著性水平概率值;在显著性水平概率值小于第二预设阈值的情况下,确定当前时刻的单变量时序通过线性关系检验。

7、作为本公开实施例一种可选的实施方式,在原始时序通过线性关系检验的情况下,对原始时序进行因果检验,包括:针对通过线性关系检验的原始时序中的任一单变量时序,执行如下操作,直至遍历完所有单变量时序:计算当前时刻的单变量时序与下一时刻的预设单变量时序之间的因果关系概率值;在因果关系概率值小于第三预设阈值的情况下,确定当前时刻的单变量时序通过因果检验。

8、作为本公开实施例一种可选的实施方式,对原始时序进行线性关系检验和因果检验,以筛选得到中间特征子集,包括:将通过线性关系检验和因果检验的单变量时序转换为多变量时序;提取多变量时序的特征得到中间特征子集。

9、作为本公开实施例一种可选的实施方式,根据多个特征的重要性参数从中间特征子集中选择得到目标特征子集,包括:按照从大到小的顺序对多个特征的重要性参数进行排序;选择重要性参数较大的预设数量的特征得到目标特征子集。

10、第二方面,本公开提供一种特征筛选装置,包括:

11、获取模块,用于获取原始时序;

12、检验模块,用于对所述原始时序进行线性关系检验和因果检验,以筛选得到中间特征子集;

13、第一模型训练模块,用于利用所述中间特征子集训练初始模型得到第一模型,并计算所述第一模型的模型误差;

14、计算模块,用于计算所述中间特征时序对应的多个特征的重要性参数,并根据所述多个特征的重要性参数从所述中间特征子集中选择得到目标特征子集;

15、第二模型训练模块,用于利用目标特征子集重新训练所述初始模型得到第二模型,并计算所述第二模型的模型误差;

16、处理模块,用于在所述第二模型的模型误差与所述第一模型的模型误差之间的误差差值小于或等于预设差值的情况下,确定保留所述目标特征子集。

17、作为本公开实施例一种可选的实施方式,获取模块,具体用于获取待处理时序;对待处理时序进行预处理,得到原始时序;其中,预处理包括以下至少一项:平滑处理、滤波处理、分数阶差分处理和时序分解处理。

18、作为本公开实施例一种可选的实施方式,检验模块,具体用于:对所述原始时序进行所述线性关系检验,所述线性关系检验包括相关性检验和显著性检验;在所述原始时序通过所述线性关系检验的情况下,对所述原始时序进行因果检验;在所述原始时序通过所述因果检验的情况下,提取所述原始时序的特征得到所述中间特征子集。

19、作为本公开实施例一种可选的实施方式,原始时序包括多个单变量时序;检验模块,在对所述原始时序进行所述线性关系检验的过程,具体用于:针对所述原始时序中的任一单变量时序执行如下操作,直至遍历完所有单变量时序:计算当前时刻的单变量时序与下一时刻的预设单变量时序之间的线性相关系数;在所述线性相关系数大于第一预设阈值的情况下,计算所述当前时刻的单变量时序与所述下一时刻的预设单变量时序之间的显著性水平概率值;在所述显著性水平概率值小于第二预设阈值的情况下,确定所述当前时刻的单变量时序通过所述线性关系检验。

20、作为本公开实施例一种可选的实施方式,检验模块,具体用于:在原始时序通过线性关系检验的情况下,对原始时序进行因果检验的过程中,针对通过所述线性关系检验的原始时序中的任一单变量时序,执行如下操作,直至遍历完所有单变量时序:计算所述当前时刻的单变量时序与所述下一时刻的预设单变量时序之间的因果关系概率值;在所述因果关系概率值小于第三预设阈值的情况下,确定所述当前时刻的单变量时序通过因果检验。

21、作为本公开实施例一种可选的实施方式,检验模块,具体用于:将通过所述线性关系检验和所述因果检验的单变量时序转换为多变量时序;提取所述多变量时序的特征得到所述中间特征子集。

22、作为本公开实施例一种可选的实施方式,计算模块,具体用于:按照从大到小的顺序对所述多个特征的重要性参数进行排序;选择重要性参数较大的预设数量的特征得到目标特征子集。

23、第三方面,本公开提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面或其任意一种可选的实施方式所述的特征筛选方法。

24、第四方面,本公开提供一种计算机可读存储介质,包括本文档来自技高网...

【技术保护点】

1.一种特征筛选方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取原始时序包括:

3.根据权利要求1或2所述的方法,其特征在于,所述对所述原始时序进行线性关系检验和因果检验,以筛选得到中间特征子集,包括:

4.根据权利要求3所述的方法,其特征在于,所述原始时序包括多个单变量时序;

5.根据权利要求4所述的方法,其特征在于,所述在所述原始时序通过所述线性关系检验的情况下,对所述原始时序进行因果检验,包括:

6.根据权利要求5所述的方法,其特征在于,所述对所述原始时序进行线性关系检验和因果检验,以筛选得到中间特征子集,包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述多个特征的重要性参数从所述中间特征子集中选择得到目标特征子集,包括:

8.一种特征筛选装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的特征筛选方法。

10.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的特征筛选方法。

...

【技术特征摘要】

1.一种特征筛选方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取原始时序包括:

3.根据权利要求1或2所述的方法,其特征在于,所述对所述原始时序进行线性关系检验和因果检验,以筛选得到中间特征子集,包括:

4.根据权利要求3所述的方法,其特征在于,所述原始时序包括多个单变量时序;

5.根据权利要求4所述的方法,其特征在于,所述在所述原始时序通过所述线性关系检验的情况下,对所述原始时序进行因果检验,包括:

6.根据权利要求5所述的方法,其特征在于,所述对所述原始时序进行线性关系检验和因果检验,以筛选得...

【专利技术属性】
技术研发人员:吕慧雷涛谭可华
申请(专利权)人:天云融创数据科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1