考虑不确定状态的序列化决策智能体实现系统及方法技术方案

技术编号:37332132 阅读:19 留言:0更新日期:2023-04-21 23:09
一种考虑不确定状态的序列化决策智能体实现系统及方法,包括:前后验信息结合处理模块、输入为分布的决策智能体模块,其中前后验信息结合处理模块根据先验的预估信息和后验的真实反馈信息,进行两种信息的综合利用处理,得到转化量和单位转化成本参数的分布;输入为分布的决策智能体模块根据单位转化成本参数的分布信息,从其中进行采样获得对应的离散分布,并将分布输入并联的动作状态神经网络中,就得到参考不确定状态下的最优决策。本发明专利技术在进行序列化决策时利用特征分布与强化学习方法,通过构建智能体,以较低的复杂度成本,显著的提高智能体序列化决策时的优化效果。显著的提高智能体序列化决策时的优化效果。显著的提高智能体序列化决策时的优化效果。

【技术实现步骤摘要】
考虑不确定状态的序列化决策智能体实现系统及方法


[0001]本专利技术涉及的是一种神经网络应用领域的技术,具体是一种考虑不确定状态的序列化决策智能体实现系统及方法。

技术介绍

[0002]在当前的大数据和信息化背景下,受限于海量数据和用户有限的手动调控能力,往往需要序列化决策智能体协助用户完成各种优化目标。如在工业自动化领域、互联网工业领域和自动驾驶领域,用户会利用序列化决策智能体进行实时调控达成工业参数调控、流量分配、自动驾驶等目标。序列化决策智能体的效率和优化问题非常重要。
[0003]构建序列化决策智能体的问题,其任务是在未来环境未知的前提下,根据观测到的反馈信息,实时调整策略来提升最终优化效果。近年来,很多基于该思想的序列化决策方法被提出。这些构建方法大都假设决策智能体能够实时观测到真实反馈,从而合理的调整实时决策策略。但是,现有的决策智能体,都忽略真实环境中的反馈延迟性带来的特征不确定性,不论这些策略调控方法的理论效果如何,若其无法获得真实的反馈,决策的效果便会大打折扣。
[0004]反馈特征不确定性,是线上真实环境区本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种考虑不确定状态的序列化决策智能体实现系统,其特征在于,包括:前后验信息结合处理模块、输入为分布的决策智能体模块,其中前后验信息结合处理模块根据先验的预估信息和后验的真实反馈信息,进行两种信息的综合利用处理,得到转化量和单位转化成本参数的分布;输入为分布的决策智能体模块根据单位转化成本参数的分布信息,从其中进行采样获得对应的离散分布,并将分布输入并联的动作状态神经网络中,就得到参考不确定状态下的最优决策。2.一种基于权利要求1所述系统的考虑不确定状态的序列化决策智能体实现方法,其特征在于,包括:步骤1、结合前链路传递的先验转化信息、智能体真实观测的后验转化信息和即时反馈信息,利用转化延迟分布模型得到当前智能体竞得流量的单位转化成本的分布;步骤2、对序列化决策问题进行形式化建模,并利用强化学习方式获得确定状态下的解;步骤3、考虑当前状态的不确定性,参考当前状态的离散分布,利用不确定状态理论,结合强化学习模型中的动作状态函数深度神经网络,构建序列化决策智能体用于协助独立流量运营者在平台开展的流量分配环境中进行资源分配决策。3.根据权利要求2所述的考虑不确定状态的序列化决策智能体实现方法,其特征是,所述的前链路传递的先验转化信息是指:互联网工业领域中,在智能体决策之前,平台会提供给其某一条流量i的预估转化率pcvr
i
以供参考;所述的真实观测的后验转化信息是指:在智能体竞得一条流量后,在某一时刻观测该流量转化结果,若观测到流量转化,称为正后验信息;尚未观测到该流量转化,称为负后验信息;所述的即时反馈信息是指:智能体的实时花费,决策周期剩余的时间等信息,这些信息具有即时反馈性和确定性。4.根据权利要求2所述的考虑不确定状态的序列化决策智能体实现方法,其特征是,所述的转化延迟分布模型是指:在流量最终转化的前提下,流量转化延迟的分布,即当流量最终发生转化,其转化延迟小于τ
i
的概率,具体为:H
T

i
)=R(T≤τ
i
),其中:H
T

i
)为转化延迟函数,表示发生转化的流量中,其可能的转化延迟的分布;τ
i
为从流量i点击到当前观测所经过的时间。5.根据权利要求2所述的考虑不确定状态的序列化决策智能体实现方法,其特征是,所述的形式化建模指是指:在离线阶段将所有流量属性已知的决策问题建模成线性规划问题,在存在预算约束与单位转化成本约束的前提下,智能体尽量多的选取高性价比的流量,具体为:优化目标:限制条件:其中:N为竞争周期中的流量总数,x
i
为是否选择竞得某条流量i,v
i

【专利技术属性】
技术研发人员:郑臻哲郭萌涵吴帆陈贵海
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1