基于循环强化学习的多模型银行资金头寸预测方法及系统技术方案

技术编号:36246245 阅读:25 留言:0更新日期:2023-01-07 09:37
本发明专利技术涉及银行资金头寸调配技术领域,提供了一种基于循环强化学习的多模型银行资金头寸预测方法及系统,所述系统包括数据预处理子系统、特征提取子系统和强化学习子系统。所述方法包括:数据预处理:对历史交易流水数据、外部约束特征数据进行数据清洗及预处理;特征提取:利用LSTM网络对处理后的数据进行时序特征提取,得到深度特征信息输出值;强化学习:所述深度特征信息输出值与交易环境比对,以所述深度特征信息输出值为输入,基于Actor

【技术实现步骤摘要】
基于循环强化学习的多模型银行资金头寸预测方法及系统


[0001]本专利技术涉及银行资金头寸调配
,特别涉及一种基于循环强化学习的多模型银行资金头寸预测方法及系统。

技术介绍

[0002]随着金融改革的进一步深化,我国银行业与国际金融市场的联系正越来越紧密,国际金融市场的任何变化都会对我国银行造成冲击。与此同时,由于我国银行业流动性管理尚处于初建和完善阶段,整体水平还比较落后,国内中小商业银行并没有像世界先进银行一样建立起一套完整的流动性管理的分析测度体系,对于流动性相关的资产负债管理,还处在满足监管指标要求的比例管理阶段,在保证支付安全的情况下,对资金头寸效用最大化管理,既要保证头寸合理水平以应对所有现金流流出,又要防止头寸留存过高形成资金浪费,是商业银行实现流动性、安全性和盈利性的统一的动态管理过程。因此,资金头寸的预测及管理无疑已成为目前我国中小商业银行流动性管理的核心内容。
[0003]传统商业银行目前资金头寸的预测管理通常依赖金融专家经验,由于银行每日的交易数据量庞大、维度丰富,加之缺乏定制化、系统化工具的支撑,这种方式表现较为低效。伴随着互联网金融的快速发展,银行从业人员开始借助计算机进行量化研究,代替重复的一些人为工作,这时也就相继出现传统金融领域的算法模型,其中也包括了很多结合机器学习做的一些研究,像众所周知的支持向量机、XGBOSST、LightGBM等。但是往往传统的那些研究方法都存在考虑的指标单一、人为操作的模型预测泛化能力不够等问题,而传统的机器学习算法应用在金融时序数据也同样存在比较明显的缺陷,很多模型特别是深度神经网络在金融时序数据的预测问题上会导致过拟合。金融市场是很变幻莫测的,非平稳性质是金融时序数据普遍存在的一个特性,这让很多模型预测的时候也表现出不稳定的状况。

技术实现思路

[0004]本专利技术的目的是至少克服现有技术不足之一,提供了一种基于循环强化学习的多模型银行资金头寸预测方法及系统,基于商业银行交易流水的LSTM序列模型与基于特征工程的强化学习模型集成后,进一步提升了模型表现,从而提升了头寸预测的准确率。
[0005]本专利技术采用如下技术方案:
[0006]一方面,本专利技术提供了一种基于循环强化学习的多模型银行资金头寸预测方法,包括:
[0007]S1、数据预处理:对历史交易流水数据、外部约束特征数据进行数据清洗及预处理;
[0008]S2、特征提取:对经步骤S1处理后的数据进行时序特征提取,得到深度特征信息输出值;
[0009]S3、强化学习:将步骤S2得到的所述深度特征信息输出值与交易环境比对,以所述深度特征信息输出值为输入,基于Actor

Critic框架进行强化学习,得到强化学习预测模
型;利用所述强化学习预测模型对银行资金头寸进行预测。
[0010]如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤S1的具体方法为:
[0011]S1.1提取银行历史交易流水数据;
[0012]S1.2提取外部约束特征数据;
[0013]S1.3数据预处理:对步骤S1.1和步骤S1.2得到的数据中存在不同程度的缺失和异常的数据进行处理,异常值统一处理为指定字符串,缺失值采用插补法进行填充。
[0014]如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤S1.1中,历史交易流水数据包括交易主体客户信息、主体客户分类、交易金额、交易币种、借贷方向、交易产品、交易渠道、交易类型、交易行为、交易摘要、交易用途、交易产品信息、交易日期、交易主体资金通道、资金流向标志、产品模块业务协议号、非柜台交易方式代码、外汇标识、交易发起终端信息、交易分类标识、交易结算方式、跨行标识、跨境标志、手续费标识、利息标志、现金标识、税标识、同名客户标识、交易对手资金通道、交易对手账户类型、交易对手机构类型、交易对手国家和交易对手地区中的若干种。
[0015]如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤S1.2中,外部约束特征数据包括同业财报和宏观信息指标,具体为央行发布的同业银行及金融公司发放的人民币贷款、贷款利率、贷款增长、委托贷款金额、外汇储备、外汇占款变动、财政投放比率、投资业务规模、投资业务规模分类占比、货币供应量M0、货币供应量M1、货币供应量M2、货币供应量M3、同业拆借利率、同业存款利率、同业存款准备金率中的若干种。
[0016]如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤S2中,采用LSTM网络对经步骤S1处理后的数据进行时序特征提取,具体方法为:
[0017]S2.1构建LSTM网络,采用三层LSTM网络结构;
[0018]S2.2网络第一层输入序列由X=(x1,x2,...,x
t
)构成,序列长度为T(第一层的输入序列长度为50);x
i
为时间i时LSTM模型的输入,x
i
为包括历史交易流水数据和外部约束特征数据构成的嵌入向量(即S1.2、S1.3提及的相关特征信息);网络第一层之间传递隐藏状态h
i1
,h
i1
为第i时刻的序列;在网络第一层之间共享第一层LSTM网络的权重参数W1和偏置量b1;第一层LSTM的输出为第一层输出激活值;
[0019]S2.3网络第二层接收所述第一层输出激活值,经网络第二层处理得到第二层输出激活值;
[0020]S2.4网络第三层接收所述第二层输出激活值,网络第三层之间同时传递隐藏状态和记忆状态候选值某时刻t的网络第m层的记忆状态候选值计算公式为:
[0021][0022]其中,表示从t

1时刻网络第m层得到的激活值(上一时刻的更新特征向量),表示由t时刻网络第m

1层得到的激活值(特征更新值),即接收两个输入,对网络第m层的LSTM参数进行堆叠处理,直接与及拼接构成的向量进行矩阵乘积操作得到网络第m层t时刻的特征更新向量,m=3;
[0023]S2.5将网络第三层输出的隐藏层的每个时刻状态作为隐藏状态(传递过程中的损
失特征向量)集合其中表示t时刻网络第三层的隐藏层状态,并将A作为注意力机制的输入,计算出t时刻的输出序列需要关注t

时刻隐藏状态的程度时刻隐藏状态的程度通过最后一层神经网络来计算,所述最后一层神经网络的网络参数是W
h
和b
h
,计算公式为:
[0024][0025]其中,表示上一个时刻序列的隐藏状态,表示t

时刻的隐藏状态。同样采取拼接的方式将和进行拼接;
[0026]S2.6计算t时刻的输出序列关注t

时刻隐藏状态的权重即求t

时刻的关注程度占所有时刻的关注程度的比重,计算公式如下:
[0027][0028]求得t时刻的总权重因子r
t
,计算公式如下:...

【技术保护点】

【技术特征摘要】
1.一种基于循环强化学习的多模型银行资金头寸预测方法,其特征在于,所述方法包括:S1、数据预处理:对历史交易流水数据、外部约束特征数据进行数据清洗及预处理;S2、特征提取:对经步骤S1处理后的数据进行时序特征提取,得到深度特征信息输出值;S3、强化学习:将步骤S2得到的所述深度特征信息输出值与交易环境比对,以所述深度特征信息输出值为输入,基于Actor

Critic框架进行强化学习,得到强化学习预测模型;利用所述强化学习预测模型对银行资金头寸进行预测。2.如权利要求1所述的基于循环强化学习的多模型银行资金头寸预测方法,其特征在于,步骤S1的具体方法为:S1.1提取银行历史交易流水数据;S1.2提取外部约束特征数据;S1.3数据预处理:对步骤S1.1和步骤S1.2得到的数据中存在不同程度的缺失和异常的数据进行处理,异常值统一处理为指定字符串,缺失值采用插补法进行填充。3.如权利要求2所述的基于循环强化学习的多模型银行资金头寸预测方法,其特征在于,步骤S1.1中,历史交易流水数据包括交易主体客户信息、主体客户分类、交易金额、交易币种、借贷方向、交易产品、交易渠道、交易类型、交易行为、交易摘要、交易用途、交易产品信息、交易日期、交易主体资金通道、资金流向标志、产品模块业务协议号、非柜台交易方式代码、外汇标识、交易发起终端信息、交易分类标识、交易结算方式、跨行标识、跨境标志、手续费标识、利息标志、现金标识、税标识、同名客户标识、交易对手资金通道、交易对手账户类型、交易对手机构类型、交易对手国家和交易对手地区中的若干种。4.如权利要求2所述的基于循环强化学习的多模型银行资金头寸预测方法,其特征在于,步骤S1.2中,外部约束特征数据包括同业财报和宏观信息指标,具体为央行发布的同业银行及金融公司发放的人民币贷款、贷款利率、贷款增长、委托贷款金额、外汇储备、外汇占款变动、财政投放比率、投资业务规模、投资业务规模分类占比、货币供应量M0、货币供应量M1、货币供应量M2、货币供应量M3、同业拆借利率、同业存款利率、同业存款准备金率中的若干种。5.如权利要求1所述的基于循环强化学习的多模型银行资金头寸预测方法,其特征在于,步骤S2中,采用LSTM网络对经步骤S1处理后的数据进行时序特征提取,具体方法为:S2.1构建LSTM网络,采用三层LSTM网络结构;S2.2网络第一层输入序列由X=(x1,x2,...,x
t
)构成,序列长度为T;x
i
为时间i时LSTM模型的输入,x
i
为包括历史交易流水数据和外部约束特征数据构成的嵌入向量;网络第一层各单元之间传递隐藏状态;在网络第一层各单元之间共享第一层LSTM网络的权重参数W1和偏置量b1;第一层LSTM的输出为第一层输出激活值;S2.3网络第二层接收所述第一层输出激活值,经网络第二.层处理得到第二层输出激活值;S2.4网络第三层接收所述第二层输出激活值,网络第三层各单元之间同时传递隐藏状态和记忆状态候选值某时刻t的网络第m层的记忆状态候选值计算公式为:
其中,表示从t

1时刻网络第m层得到的激活值,表示由t时刻网络第m

1层得到的激活值,对网络第m层的LSTM参数进行堆叠处理,直接与受拼接构成的向量进行矩阵乘积操作得到网络第m层t时刻的特征更新向量,m=3;S2.5将网络第三层输出的隐藏层的每个时刻状态作为隐藏状态集合S2.5将网络第三层输出的隐藏层的每个时刻状态作为隐藏状态集合其中表示t时刻网络第m层的隐藏层状态,并将A作为注意力机制的输入,计算出t时刻的输出序列需要关注t

时刻隐藏状态的程度通过最后一层神经网络来计算,所述最后一层神经网络的网络参数是W
h
和b
h
,计算公式为:其中,表示t

1时刻序列的隐藏状态,表示t

时刻的隐藏状态;采取拼接的方式将和进行拼接;S2.6计算t时刻的输出序列关注t

时刻隐藏状态的权重即求t

时刻的关注程度占所有时刻的关注程度的比重,计算公式如下:求得t时刻的总权重因子r
t
,计算公式如下:最终求得t时刻LSTM网络的输出值y
t
,即t时刻的特征更新值,所述t时刻的特征更新值即为t时刻的深度特征信息输出值:y
t
=LSTM(r
t
,a
t
‑1,c
t
‑1)。6.如权利要求1所述的基于循环强化学习的多模型银行资金头寸预测方法,其特征在于,步骤S3采用PPO算法,基于Actor

Critic框架进行强化学习,具体方法为:S3.1PPO算法的目标函数定义如下:其中:ε为超参数;r
t
(θ)为策略更新后的新旧策略之比;为策略更新后新策略较旧策略的优势函...

【专利技术属性】
技术研发人员:李振任行乐刘恒魏华陈嘉怡李也
申请(专利权)人:民生科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1