基于政策规划约束Q学习的动态频谱接入方法技术

技术编号:3460592 阅读:251 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种基于政策规划约束Q学习的动态频谱接入方法,认知用户对频谱状态空间进行划分,选出合理和合法的状态空间;对上述状态空间进行分等级模块化;每个等级模块,完成Q学习前的Q表初始化工作;每个模块单独的进行Q学习算法,根据学习规则结合动作选择算法,综合考虑所有学习模块进行决策,得出认知用户最终要采取的动作;判断选择接入的频谱是否和授权用户冲突,若发生冲突则计算冲突概率,否则进入下步;判断环境政策规划知识库是否发生改变,若变,更新环境政策规划知识库,并调整学习的Q值;重复上述部分步骤,直到学习收敛。本发明专利技术能提高系统整体性能并可克服智能体学习的盲目性、提高学习效率、加快收敛速度。

【技术实现步骤摘要】

【技术保护点】
一种基于政策规划约束Q学习的动态频谱接入方法,其特征在于,首先认知用户在政策规划约束下,利用感知到的环境信息和专家经验,用模糊综合决策方法得到Q学习的先验知识,接着包括下列步骤: 步骤1,认知用户感知环境状态,并在包含政策规划和数据的知识库的指导下对频谱状态空间进行划分,选出合理和合法的状态空间,剔除政策规划不允许认知用户使用的状态空间; 步骤2,根据政策规划的指导,依据环境先验知识对步骤1得出的合理和合法的状态空间的进行分等级模块化; 步骤3,对每个等级模块,依据Q学习的先验知识,使用模糊综合决策,完成Q学习前的Q表初始化工作,并将得出的Q值存入Q值表征模块; 步骤4,初始化其他工作参数,每个模块开始单独的进行Q学习算法,根据学习规则结合动作选择算法,综合考虑所有学习模块进行决策,得出认知用户最终要采取的动作,选择频谱进行接入; 步骤5,判断选择接入的频谱是否和授权用户冲突,根据判断设置回报值,若发生冲突则计算冲突概率,否则进入步骤6; 步骤6,判断环境的政策、规划和数据是否发生改变,如果发生改变,更新环境政策规划知识库,并根据政策、规划和数据的改变调整学习的Q值; 步骤7,重复步骤4~6,直到学习收敛。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王金龙吴启晖刘琼俐丁茜张玉明
申请(专利权)人:中国人民解放军理工大学通信工程学院
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利