【技术实现步骤摘要】
基于强化学习的投资组合确定方法、装置和电子设备
[0001]本申请涉及量化投资领域,特别是涉及一种基于强化学习的投资组合确定方法、装置和电子设备。
技术介绍
[0002]股票投资组合优化一直是量化投资领域的热点,其主要解决的问题是如何通过选择最佳的投资组合来分散投资,从而提高收益回报,降低投资风险。股票投资最佳组合受广泛的外在因素影响,包括有形因素(如资产、负债、收入或其他基本面)和无形因素(如选择性撤资等)。传统的投资组合优化一般基于Markowitz投资组合理论,结合股票组合历史表现及外部市场数据,预测股票的期望表现数据,如风险、收益的均值和方差等指标,并建立均值
‑
方差模型来求解最优资产配置的比例。此外,许多学者针对不同的市场状态,提出了若干个可能适用的市场策略,支持多期序列组合决策。
[0003]然而,现实场景的决策环境是复杂动态的,很难通过简单的建模求解或单一策略得到最优的投资组合。强化学习是通过控制智能体在某个环境下自主选择动作,并与环境互动而不断改善智能体的行为策略的过程。将强化学习应 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的投资组合确定方法,其特征在于,所述方法包括:构建包括多种不同投资策略的投资策略库,所述投资策略用于确定投资组合;构建用于表征交易窗口状态的状态特征向量,所述状态特征向量包括样本状态特征向量和真实状态特征向量;根据所述投资策略库和所述样本状态特征向量训练神经网络模型,得到投资组合决策模型;根据所述真实状态特征向量和所述投资组合决策模型确定目标投资策略,根据所述目标投资策略确定目标投资组合。2.根据权利要求1所述的基于强化学习的投资组合确定方法,其特征在于,所述交易窗口状态包括市场状态、资产状态和持仓状态;所述构建用于表征交易窗口状态的状态特征向量包括:构建用于表征市场状态的市场矩阵;构建用于表征资产状态的资产矩阵;构建用于表征持仓状态的持仓矩阵;根据所述市场矩阵、所述资产矩阵和所述持仓矩阵,得到所述状态特征向量。3.根据权利要求2所述的基于强化学习的投资组合确定方法,其特征在于,所述方法在得到所述状态特征向量之前还包括:对所述市场矩阵、所述资产矩阵和所述持仓矩阵进行预处理;其中,所述预处理包括:异常值填充处理、独热处理、针对高维稀疏矩阵的特征嵌入处理和针对时序矩阵的时序信息挖掘处理。4.根据权利要求1所述的基于强化学习的投资组合确定方法,其特征在于,所述神经网络模型包括主网络模型;所述根据所述投资策略库和所述样本状态特征向量训练神经网络模型包括:初始化所述主网络模型的模型参数和所述样本状态特征向量;将初始化后的所述样本状态特征向量确定为当前状态特征向量;根据所述当前状态特征向量和所述主网络模型,得到关于所述投资策略库中的多种不同所述投资策略的预估收益分布;通过ε
‑
贪心算法选择一种所述投资策略确定为当前投资策略;根据所述当前投资策略确定当前预估收益和后一状态特征向量;根据所述当前状态特征向量、所述当前投资策略、所述当前预估收益和所述后一状态特征向量确定为交易经验片段,根据所述交易经验片段更新所述主网络模型的模型参数。5.根据权利要求4所述的基于强化学习的投资组合确定方法,其特征在于,所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。