【技术实现步骤摘要】
时序数据环境分析及决策方法、装置、设备及存储介质
[0001]本专利技术涉及金融科技及人工智能
,尤其涉及一种时序数据环境分析及决策方法、装置、电子设备及可读存储介质。
技术介绍
[0002]随着数据获取及处理能力的发展,强化学习在视觉、听觉、翻译、游戏等领域取得了很多成功应用。这类决策问题涉及的决策变量、决策空间有限,决策环境平稳,不确定因素可控。然而,现实自然社会中的决策问题存在映射关系复杂、决策空间巨大、决策环境随时间变化大、不确定因素多等特点,导致现有强化学习算法在复杂决策领域中的表现仍不理想,例如重大灾害救援领域,大型系统突发故障诊断(如高铁运行、供电系统)等;金融领域市场时序指标分布状态突变等风险预测防控问题。此外,这类复杂决策问题还存在可学习样本稀缺(样本来自自然事件、市场突变等,不受人类控制,或者采集成本极大),容错程度低(一旦决策失败,损失重大)等问题。
[0003]以下为结合实际应用案例具体描述现有的强化学习算法在这些场景中面临的问题:1. 映射关系复杂/决策空间巨大:目前最被熟知且广泛应用 ...
【技术保护点】
【技术特征摘要】
1.一种时序数据环境分析及决策方法,其特征在于,所述方法包括:获取包括历史时序数据的历史决策环境数据,利用预构建的决策模式学习模型对所述历史决策环境数据进行决策模式学习,得到历史决策模式数据;获取实时时序数据,基于所述决策模式学习模型对所述实时时序数据进行决策模式判断,得到实时决策模式数据;基于所述历史决策模式数据及所述实时决策模式数据构建时序图,利用预构建的图神经网络对所述时序图进行模式预测,得到未来决策模式数据;基于预构建的知识因子构建策略规则库,基于所述策略规则库训练预构建的策略网络,得到策略模型,基于所述策略模型,对预构建的价值网络进行模仿学习,得到价值模型;基于所述实时决策模式数据及所述未来决策模式数据,对所述策略模型及所述价值模型进行交互训练,得到优化策略模型;利用所述优化策略模型对待检测市场指标时序数据进行决策分析,得到包括决策结果的决策环境分析结果。2.如权利要求1所述的时序数据环境分析及决策方法,其特征在于,所述利用预构建的决策模式学习模型对所述历史决策环境数据进行决策模式学习,得到历史决策模式数据,包括:利用所述决策模式学习模型中的决策目标函数构建所述历史决策环境数据的序列划分点;基于所述序列划分点对所述历史决策环境数据进行序列划分,得到历史决策模式数据。3.如权利要求1所述的时序数据环境分析及决策方法,其特征在于,所述基于所述决策模式学习模型对所述实时时序数据进行决策模式判断,得到实时决策模式数据,包括:基于所述决策模式学习模型及预设的滑动时间窗口对所述实时时序数据进行决策模式判断,得到不同滑动时间窗口对应的实时决策模式数据。4.如权利要求1中所述的时序数据环境分析及决策方法,其特征在于,所述基于所述历史决策模式数据及所述实时决策模式数据构建时序图,利用预构建的图神经网络对所述时序图进行模式预测,得到未来决策模式数据,包括:基于预设的数据结构从所述历史决策模式数据及所述实时决策模式数据中提取定量指标序列,基于预设的关系规则从所述历史决策模式数据及所述实时决策模式数据提取关系网络;汇总所述定量指标序列及所述关系网络得到所述时序图;利用所述图神经网络对所述时序图进行环境预测,得到未来决策环境数据;基于所述决策模式学习模型对所述未来决策环境数据进行模式预测,得到未来决策模式数据。5.如权利要求1所述的时序数据环境分析及决策方法,其特征在于,所述基于所述策略规则库训练预构建的策略网络,得到策略模型,包括:将所述策略规则库中的数据划分为目标序列及多个特征序列,利用所述策略网络中嵌入注意力机制的编码器对所述多个特征序列进行贡献度打分,得到贡献度打分结果;基于所述贡献度打分结果,利用所述策略网络中嵌入注意力机制的解码器对所述目标
序列进行预测,得到预测结果,返回所述将所述策略规则库中的数据划分为目标序列及多个特征序列的步骤,直至满足预设的训练条件,得到所述策略模型。6.如权利要求1中所述的时序数据环境分析及决策方法,其特征在于,所述基于所述策略模型,对预构建的价值网络进行模仿学习...
【专利技术属性】
技术研发人员:肖京,王磊,李娜,郭骁,王媛,谭韬,陈又新,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。