当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于教师-学生模型和强化学习的做市方法技术

技术编号:32341468 阅读:58 留言:0更新日期:2022-02-16 18:51
本发明专利技术提供一种基于教师

【技术实现步骤摘要】
一种基于教师

学生模型和强化学习的做市方法


[0001]本专利技术涉及信息科学领域,更具体地,涉及一种基于教师

学生模型和强化学习的做市方法。

技术介绍

[0002]目前,随着经济发展,个人手中的剩余价值越来越多,为了让手中的财富保值增值,越来越多的人进入金融领域进行投资;金融领域中,传统的投资方法依赖于对市场的调研等金融市场研究方法以及投资者个人的主观经验,对于缺乏这些方面知识的投资者并不友好,而量化投资的各种策略恰好解决这个问题,因此受到广泛的关注。
[0003]量化投资的策略是借助数学模型和计算机程序化来进行的投资交易,目的是获取稳定收益;传统方法通常是根据当前市场的历史信息计算出相应的有效的技术指标,从而根据指标执行对应的交易行为,常见有股票多因子策略、期货CTA策略、套利策略等等;随着大数据、机器学习的发展,通过结合传统方法和机器学习方法,可以更高效地提取出市场的规律,从而实现更加稳定的投资;通常采用RNN、LSTM等神经网络来对市场进行分析决策。
[0004]随着强化学习在游戏、自动化等领域展现出了较好的效果,量化交易领域也将其引入使用,强化学习通过对时间序列形式的交易环境信息进行学习,得到一个具有经验的交易智能体,并且综合考虑了盈利和风险,使得量化投资更有效;通常采用Policy Gradient(PG)、DQN(Deep Q

learning Network)、AC(Actor Critic)及其变种的强化学习算法来进行智能体的训练。
[0005]做市是一种常见的量化交易方法,即在市场中同时发出买单和卖单,若同时成交,则头寸未发生改变并且赚取了买卖单的差价,因此做市既是寻找合适的时机进行交易让双边都能成交,从而使得市场的流动性更好。
[0006]现有技术中公开了一种基于ε不敏感对数损失的在线做市方法的专利,它根据期货分钟级别OHLC数据构建多个候选子策略,同时提出候选子策略的加权收益和理论最优策略的加权收益存在线性关系;该专利技术以ε不敏感对数损失作为损失函数,使用Follow the Regularized Leader在线学习算法动态更新候选子策略的权重,最后根据权重计算主策略的目标仓位并调整主策略的仓位等于目标仓位。本专利技术提出以理论最优策略的加权收益作为线性关系的真实值,使得在线学习的优化目标更加明确,同时,该专利技术提出的以ε不敏感对数损失作为损失函数,能够更好地拟合真实的市场情况;在使用真实数据进行回测试,该专利技术提出的策略能够获得较好的收益和稳定性,拥有很强的实用性。然而,该专利却未涉及任何有关利用市场不完美信息抓住合适的做市时机,并充分考虑头寸累积带来的风险,从而获得价差盈利并促进市场流动性的技术。

技术实现思路

[0007]本专利技术提供一种基于教师

学生模型和强化学习的做市方法,该方法能够充分利用市场不完美信息抓住合适的做市时机,并充分考虑头寸累积带来的风险,从而获得价差
盈利并促进市场流动性。
[0008]为了达到上述技术效果,本专利技术的技术方案如下:
[0009]一种基于教师

学生模型和强化学习的做市方法,包括以下步骤:
[0010]S1:收集目标期货品种的历史行情价量数据;
[0011]S2:进行数据清洗工作;
[0012]S3:对数据计算训练教师智能体所需的各种数据;
[0013]S4:用强化学习算法训练教师智能体;
[0014]S5:对数据计算训练学生智能体所需的各种数据;
[0015]S6:用教师智能体指导强化学习算法训练学生智能体;
[0016]S7:进行回测测试。
[0017]进一步地,步骤S1中,收集目标期货品种特定时间级的历史行情价量数据,数据表具体包括对应时间级的每个时间点t的开盘价open
t
、最高价high
t
、最低价low
t
、收盘价close
t
、成交量volume
t

[0018]进一步地,步骤S2的具体过程是:
[0019]S21:去除数据表中多余的空行使得行连续;
[0020]S22:对特定字段进行去重,保证同一个时间点t没有重复数据行;
[0021]S23:去除存在缺失值和异常值的数据行。
[0022]进一步地,步骤S3的具体过程是:
[0023]S31:定义每个时间点t的回看区间大小w,表示时间点t所考虑的历史数据长度,定义每个时间点t的未来趋势显示区间w

,表示能体现出时间点t未来价格走向的区间大小;
[0024]S32:根据收集到的数据计算教师部分相应的金融技术指标,所用到的指标有:w时长指数移动平均指标w时长顺势指标w时长绝对价格震荡指标t时刻做市买单未来w

时长能否成交指标t时刻做市卖单未来w

时长能否成交指标
[0025]w时长指数移动平均指标计算公式如下:
[0026][0027]w时长顺势指标计算公式如下:
[0028][0029]其中TP为t时刻最高价、最低价和收盘价的均值,MA为w时长的收盘价均值,MD则是w时长的收盘价与MA值的绝对值差的均值;
[0030]w时长绝对价格震荡指标由长期移动平均值减去短期移动平均值;
[0031]S33:对计算出的金融技术指标进行归一化处理,使用线性函数归一化,公式如下:
[0032][0033]S34:对数据表中的每个时间点t计算过去n时长价格的均值即简单移动平均值;
[0034]S35:以作为中间价格,对数据表中的每个时间点t计算出做市买单价和卖单价,公式如下:
[0035][0036][0037]其中price_diff为定义好的最小变动价位,buy_price
t
为时间点t做市买单价,sell_price
t
为时间点t做市卖单价;
[0038]S36:对数据表中的每个时间点t判断是否为清仓时间点,并为所有非清仓的时间点记录未来最早的清仓时间exit_time
t

[0039]S37:对数据表中的每个时间点t计算买单和卖单是否在清仓之前能成交,记为buy_succ
t
和sell_succ
t
,1表示成交,0表示未成交;
[0040]S38:考虑在每个交易日收市前停止做市交易并平仓,计算每个时间点t的做市动作将会带来的收益profit
t
,公式如下:
[0041][0042]其中buy_succ
t
和sell_succ
t
分别表示买单和卖单在未来清仓之前是否能成交,trainsaction_fee表示交易的手续费。
[0043]进一步地,所述步骤S4的具体过程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于教师

学生模型和强化学习的做市方法,其特征在于,包括以下步骤:S1:收集目标期货品种的历史行情价量数据;S2:进行数据清洗工作;S3:对数据计算训练教师智能体所需的各种数据;S4:用强化学习算法训练教师智能体;S5:对数据计算训练学生智能体所需的各种数据;S6:用教师智能体指导强化学习算法训练学生智能体;S7:进行回测测试。2.根据权利要求1所述的基于教师

学生模型和强化学习的做市方法,其特征在于,步骤S1中,收集目标期货品种特定时间级的历史行情价量数据,数据表具体包括对应时间级的每个时间点t的开盘价open
t
、最高价high
t
、最低价low
t
、收盘价close
t
、成交量volume
t
。3.根据权利要求2所述的基于教师

学生模型和强化学习的做市方法,其特征在于,步骤S2的具体过程是:S21:去除数据表中多余的空行使得行连续;S22:对特定字段进行去重,保证同一个时间点t没有重复数据行;S23:去除存在缺失值和异常值的数据行。4.根据权利要求3所述的基于教师

学生模型和强化学习的做市方法,其特征在于,步骤S3的具体过程是:S31:定义每个时间点t的回看区间大小w,表示时间点t所考虑的历史数据长度,定义每个时间点t的未来趋势显示区间w

,表示能体现出时间点t未来价格走向的区间大小;S32:根据收集到的数据计算教师部分相应的金融技术指标,所用到的指标有:w时长指数移动平均指标w时长顺势指标w时长绝对价格震荡指标t时刻做市买单未来w

时长能否成交指标t时刻做市卖单未来w

时长能否成交指标w时长指数移动平均指标计算公式如下:w时长顺势指标计算公式如下:其中TP为t时刻最高价、最低价和收盘价的均值,MA为w时长的收盘价均值,MD则是w时长的收盘价与MA值的绝对值差的均值;w时长绝对价格震荡指标由长期移动平均值减去短期移动平均值;S33:对计算出的金融技术指标进行归一化处理,使用线性函数归一化,公式如下:S34:对数据表中的每个时间点t计算过去n时长价格的均值即简单移动平均值;
S35:以作为中间价格,对数据表中的每个时间点t计算出做市买单价和卖单价,公式如下:单价,公式如下:其中price_diff为定义好的最小变动价位,buy_price
t
为时间点t做市买单价,sell_price
t
为时间点t做市卖单价;S36:对数据表中的每个时间点t判断是否为清仓时间点,并为所有非清仓的时间点记录未来最早的清仓时间exit_time
t
;S37:对数据表中的每个时间点t计算买单和卖单是否在清仓之前能成交,记为buy_succ
t
和sell_succ
t
,1表示成交,0表示未成交;S38:考虑在每个交易日收市前停止做市交易并平仓,计算每个时间点t的做市动作将会带来的收益profit
t
,公式如下:其中buy_succ
t
和sell_succ
t
分别表示买单和卖单在未来清仓之前是否能成交,trainsaction_fee表示交易的手续费。5.根据权利要求4所述的基于教师

学生模型和强化学习的做市方法,其特征在于,所述步骤S4的具体过程是:S41:创建虚拟的做市市场环境,通过载入收集到的目标期货品种特定时间级的历史行情价量数据以及步骤S3中计算出的所需数据,以其中的金融技术指标作为强化学习算法的状态输入state,并设置相应的初始化、获取环境状态、推移环境状态的方法体;S42:设置强化学习中教师智能体的动作空间action,智能体在每个时间点t的动作分为0和1两种,0表示不做出任何交易,1表示在时间点t进行做市,同时向市场环境分别以价格buy_price
t
和sell_price
t
发出买单和卖单;S43:设置强化学习中环境所给的奖惩值reward,使用每个时间点t决策所获得的收益profit
t
作为reward;S44:训练教师智能体的强化学习算法采用PPO算法即Proximal Policy Optimization算法,根据上述的state、action、reward进行智能体策略的训练,PPO算法中用于代表智能体训练的策略选择为多层感知机和激活函数构成的神经网络,即一个的多层感知机连接tanh激活函数构成,tanh激活函数的公式如下:6.根据权利要求5所述的基于教师

学生模型和强化学习的做市方法,其特征在于,步骤S44中使用PPO算法具体的流程为:首先对智能体的策略参数φ进行初始化,并将参数赋值给与环境交互的策略参数φ
old
,让参数为φ
old
的策略在虚拟的做市环境中进行交互,获取当前时间点t的环境状态s
t
并得出策略所选取的动作a
t
,据此计算出优势函数该优势函数表示的即是当前环境状态下智能体策略所选取的动作获得的
reward与期望的reward的差,将会通过使用一个V网络以及当前状态下执行动作所获得的的reward来估计得到,公式如下:若优势函数符号为正,说明在当前环境状态下智能体策略所选取的动作有利于使得reward往最大化的方向发展,因此可以通过梯度下降调整相应的教师智能体的策略参数φ从而最小化目标函数,目标函数的公式如下:L(φ)=L
policy
(φ)+λL
value
(φ)L
vaLue
(φ)=E
t
[||V
φ
(s
t
)

V
t
||2]在一定的时间周期,用策略参数φ更新用于与环境交互的策略参数φ
old
,由于算法中让一个策略参数与环境进行交互,教师智能体的策略参数则进行学习,策略的参数分别为φ
old
和φ,因此在目标函数...

【专利技术属性】
技术研发人员:潘炎戴梓煜印鉴
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1