【技术实现步骤摘要】
一种基于强化学习的趋势交易方法及系统
本专利技术涉及机器学习领域,特别是涉及一种基于强化学习的趋势交易方法及系统。
技术介绍
目前,传统的金融投资方法很大程度上依赖于投资人自身的金融专业素养和预判市场价格走势的能力,缺少经验的主观投资者会承担比较大的风险。因此,借助于计算机的量化交易策略越来越收到人们的关注,国内的量化交易领域发展迅速,出现了很多不同的交易策略。对于量化交易策略,传统的方法是根据计量经济学的一些规律来设计的策略,其根据当前市场信息计算金融技术指标,再根据这些指标和金融学规律来做出决策。这些方法比较依赖于过往总结的一些市场规律,但市场是多变的,把以前的一些做法拿到现在来使用很可能就失效了。因此,如今比较先进的做法是结合机器学习模型和市场数据来设计交易策略,这样的方法可以及时学习到市场的最新规律,以达到更稳定盈利的目的。随着人工智能技术的快速发展,强化学习被引入到量化交易领域中使用,强化学习依赖于它强大的自适应控制能力和自我学习能力,能够很好地应用于量化交易这种需要序列决策的问题中。强化学习模型根 ...
【技术保护点】
1.一种基于强化学习的趋势交易方法,其特征在于,包括以下步骤:/n选择一金融品种,获取所选品种的历史行情数据,所述历史行情数据主要包括t时刻的最高价hight
【技术特征摘要】
1.一种基于强化学习的趋势交易方法,其特征在于,包括以下步骤:
选择一金融品种,获取所选品种的历史行情数据,所述历史行情数据主要包括t时刻的最高价hightt、最低价lowt、开盘价opent、收盘价closet和成交量volumet,对所述历史行情数据进行数据清洗及数据处理,从所述历史行情数据划分出训练子集和测试子集;
构建金融技术指标及特征变量,设立交易动作规则;
从所述训练子集中计算出所述金融技术指标,以所述训练子集的所述金融技术指标为输入、以所述动作规则作为约束,对一强化学习模型进行训练,最后获取一经过训练的强化学习模型;
从所述测试子集中计算出所述金融技术指标,以所述测试子集的所述金融技术指标为输入,采用所述经过训练的强化学习模型对所述测试子集进行预测,获取交易的初次决策;
设置一过滤层,通过所述过滤层进行二次决策,获取交易的二次决策;
设置一回测平台,通过所述回测平台进行测试,获取交易的最终执行结果。
2.根据权利要求1所述的基于强化学习的趋势交易方法,其特征在于:所述金融品种为黑色系的期货品种,所述历史行情数据优选为分钟级的OHLC数据。
3.根据权利要求2所述的基于强化学习的趋势交易方法,其特征在于:所述金融技术指标包括300分钟简单移动平均指标300分钟顺势指标和300分钟变动率指标所述3个金融技术指标的计算公式分别如下:
其中,
TP=hight+lowt+closet
通过上述公式计算出所述3个金融技术指标后,还需分别对所述3个金融技术指标进行归一化处理,其计算公式如下:
其中,μ为均值,σ为标准差;
所述特征变量包括时间点t时刻过去x分钟内low价格的最低价low_Xmin、代表退场动作的buy_exit、代表每次交易入场和退场在考虑手续费下所得收益的y_buy以及代表买入动作的best_action;
所述动作规则包括:
把当前时间点t时刻的收盘价close数据与对应的low_Xmin进行比较,判断是否要在当前时间点退场,buy_exit为1表示退场,buy_exit为0表示不退场;
如果某个时间点的收益y_buy大于0,则best_action设置为1,否则,设置为0。
4.根据权利要求3所述的基于强化学习的趋势交易方法,其特征在于:所述强化学习模型选择PPO算法作为训练算法;模型训练时在所述训练集中随机选择开始时间点;每个episode区间大小限制在600到1000之间。
5.根据权利要求4所述的基于强化学习的趋势交易方法,其特征在于:所述训练算法所使用的目标函数采用限制KL散度的方式来实现,所述目标函数的计算公式如下:
所述训练算法所采用的训练策略为MLP策略,所述MLP策略的激活函数采用tanh,其计算公式如下:
6.根据权利要求5所述的基于强化学习的趋势交易方法,其特征在于:所述二次决策的方法包括:计算过去100分钟内收盘价close的均值mean与标准差std,每个时刻过滤层都会对此进行判断,判断算式如下:
close≥mean+3*std
当所述判断算式成立,并且所述交易的初次决策为1,则所述交易的二次决策为1,否则为0。
7.根据权利要求6所述的基于强化学习的趋势交易方法,其特征在于:所述回测平台...
【专利技术属性】
技术研发人员:梁智昊,潘炎,刘冶,
申请(专利权)人:中山大学,火烈鸟网络广州股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。