一种预测股价收益率分布的代价函数计算方法技术

技术编号:20821454 阅读:60 留言:0更新日期:2019-04-10 06:21
本发明专利技术公开了一种预测股价收益率分布的代价函数计算方法,S101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;S103、等分区间:将步骤S101所得目标信息的分布区间,分成n等分,对应分别记为R1,R2,...,Rn;S105、样本采集:将步骤S101所得目标信息对应分配到步骤S103的n等分,并统计n等分中各区间样本的数量,分别记为N1,N2,...,Nn;S107、确定样本:将步骤S105中所得N1,N2,...,Nn筛选出最大值NX,代入公式

【技术实现步骤摘要】
一种预测股价收益率分布的代价函数计算方法
本专利技术涉及股价收益
,具体来说,涉及一种预测股价收益率分布的代价函数计算方法。
技术介绍
股票收益是股票股息和因拥有股票所有权而获得的超出股票实际购买价格的收益。投资者购买股票最关心的是能获得多少收益。具体来说,就是红利和股票市价的升值部分。公司发放红利,大致有三种形式,现金红利,股份红利、财产红利。一般大多数公司都是发放现金股利的,不发放现金红利的主要是那些正在迅速成长的公司,它们为了公司的扩展。需要暂存更多的资金以适应进一步的需要,这种做法常常为投资者所接受。由于股息是股票的名义收益,而股票价格则是经常变化的,因此比较起来,股票持有者对股票价格变动带来的预期收益比对股息更为关心。股价收益率绝大多数情况下的波动范围都很小,只是少数情况下波动会放大,因此收益率的分布具有很高的峰度,分布极不平衡,在进行回归建模进行股价预测的时候,受到大量小波动率训练样本的影响,导致训练得到的模型预测的结果也缺失波动性。传统解决不平衡问题的方法主要有上采样和下采样两种,在分类问题中,常用的还有代价敏感损失函数的方法,下采样的方法会丢失大量的信息,上采样的方法也会有大量重复的数据,容易导致过拟合,同时,采样的方法会导致股价预测的样本变得不连续,而不具有时间序列的特征,而分类问题中的解决方法在具有连续数据类型的问题中尚不能直接拿来使用,而是需要将连续数据转化为离散化的数据,然后设计代价敏感损失函数进行建模,股价的收益率具有尖峰肥尾的特征,其分布具有严重的不平衡性,使用机器学习进行股价回归和预测时,预测结果倾向于分布在均值附近,实际波动性较小。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的问题,本专利技术提出一种预测股价收益率分布的代价函数计算方法,以克服现有相关技术所存在的上述技术问题。本专利技术的技术方案是这样实现的:一种预测股价收益率分布的代价函数计算方法,包括以下步骤:S101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;S103、等分区间:将步骤S101所得目标信息的分布区间,分成n等分,对应分别记为R1,R2,...,Rn;S105、样本采集:将步骤S101所得目标信息对应分配到步骤S103的n等分,并统计n等分中各区间样本的数量,分别记为N1,N2,...,Nn;S107、确定样本:将步骤S105中所得N1,N2,...,Nn筛选出最大值NX,代入公式获取样本数字;S109、定义损失函数的加权均方误差:其中N为样本总数,h(xi)为第i个样本的预测值;S111、建立机器学习模型:将代价函数设置为WMSE,并且评估和训练模块;S113、筛选模型:调整分组N的数量,重复步骤S101—步骤S111,筛选最优模块,获得模块。进一步的,步骤所述S109中h(xi)为第i个样本的预测值需满足进一步的,步骤所述S103中n等分为等距等分或不等距等分。本专利技术的有益效果:本专利技术并不涉及对原始特征的特别处理,仅根据原始数据的分布得到一系列的描述原始数据的统计值,能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息,另外,本专利技术数据处理和建模过程更为简单,仅需要在初级模型的基础上改变代价函数的配置即可。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例的一种预测股价收益率分布的代价函数计算方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。根据本专利技术的实施例,提供了一种预测股价收益率分布的代价函数计算方法。如图1所示,根据本专利技术实施例的预测股价收益率分布的代价函数计算方法,包括以下步骤:S101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;S103、等分区间:将步骤S101所得目标信息的分布区间,分成n等分,对应分别记为R1,R2,...,Rn;S105、样本采集:将步骤S101所得目标信息对应分配到步骤S103的n等分,并统计n等分中各区间样本的数量,分别记为N1,N2,...,Nn;S107、确定样本:将步骤S105中所得N1,N2,...,Nn筛选出最大值NX,代入公式获取样本数字;S109、定义损失函数的加权均方误差:其中N为样本总数,h(xi)为第i个样本的预测值;S111、建立机器学习模型:将代价函数设置为WMSE,并且评估和训练模块;S113、筛选模型:调整分组N的数量,重复步骤S101—步骤S111,筛选最优模块,获得模块。借助于上述技术方案,本专利技术并不涉及对原始特征的特别处理,仅根据原始数据的分布得到一系列的描述原始数据的统计值,能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息,另外,本专利技术数据处理和建模过程更为简单,仅需要在初级模型的基础上改变代价函数的配置即可。另外,在一个实施例中,步骤所述S109中h(xi)为第i个样本的预测值需满足另外,在一个实施例中,步骤所述S103中n等分为等距等分或不等距等分。另外,在一个实施例中,对于上述步骤S103来说,在实际应用中,以n=10为例,即:(-10%,-8%],(-8%,-6%],(-6%,-4%],(-4%,-2%],(-2%,0%],(0%,2%],(2%,4%],(4%,6%],(6%,8%],(8%,10%];对应的R1,R2,...,Rn分别记为R1,R2,…,R10。另外,在一个实施例中,对于上述S109中h(xi)来说,当预测第i个区间中的样本的时候,应当将该区间的误差的权重调整为和样本量最多的区间的所占的权重一致。另外,在一个实施例中,对收益率的分布进行分组,统计各组内样本的数量,然后计算相对于数量最大的一组的比例,得到改组对应的系数,通常,改系数大于等于1。综上所述,借助于本专利技术的上述技术方案,本专利技术并不涉及对原始特征的特别处理,仅根据原始数据的分布得到一系列的描述原始数据的统计值,能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息,另外,本专利技术数据处理和建模过程更为简单,仅需要在初级模型的基础上改变代价函数的配置即可。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网
...

【技术保护点】
1.一种预测股价收益率分布的代价函数计算方法,其特征在于,包括以下步骤:S101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;S103、等分区间:将步骤S101所得目标信息的分布区间,按区间范围分成n等分,对应分别记为R1,R2,...,Rn;S105、样本采集:将步骤S101所得目标信息对应分配到步骤S103的n等分,并统计n等分中各区间样本的数量,分别记为N1,N2,...,Nn;S107、确定样本:将步骤S105中所得N1,N2,...,Nn筛选出最大值NX,代入公式

【技术特征摘要】
1.一种预测股价收益率分布的代价函数计算方法,其特征在于,包括以下步骤:S101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;S103、等分区间:将步骤S101所得目标信息的分布区间,按区间范围分成n等分,对应分别记为R1,R2,...,Rn;S105、样本采集:将步骤S101所得目标信息对应分配到步骤S103的n等分,并统计n等分中各区间样本的数量,分别记为N1,N2,...,Nn;S107、确定样本:将步骤S105中所得N1,N2,...,Nn筛选出最大值NX,代入公式获取样本...

【专利技术属性】
技术研发人员:江寅朱传瑞
申请(专利权)人:安徽磐众信息科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1