基于政策规划约束Ｑ学习的动态频谱接入方法技术

技术编号：3460592 阅读：251 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了一种基于政策规划约束Ｑ学习的动态频谱接入方法，认知用户对频谱状态空间进行划分，选出合理和合法的状态空间；对上述状态空间进行分等级模块化；每个等级模块，完成Ｑ学习前的Ｑ表初始化工作；每个模块单独的进行Ｑ学习算法，根据学习规则结合动作选择算法，综合考虑所有学习模块进行决策，得出认知用户最终要采取的动作；判断选择接入的频谱是否和授权用户冲突，若发生冲突则计算冲突概率，否则进入下步；判断环境政策规划知识库是否发生改变，若变，更新环境政策规划知识库，并调整学习的Ｑ值；重复上述部分步骤，直到学习收敛。本发明专利技术能提高系统整体性能并可克服智能体学习的盲目性、提高学习效率、加快收敛速度。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种基于政策规划约束Ｑ学习的动态频谱接入方法，其特征在于，首先认知用户在政策规划约束下，利用感知到的环境信息和专家经验，用模糊综合决策方法得到Ｑ学习的先验知识，接着包括下列步骤：　步骤１，认知用户感知环境状态，并在包含政策规划和数据的知识库的指导下对频谱状态空间进行划分，选出合理和合法的状态空间，剔除政策规划不允许认知用户使用的状态空间；　步骤２，根据政策规划的指导，依据环境先验知识对步骤１得出的合理和合法的状态空间的进行分等级模块化；　步骤３，对每个等级模块，依据Ｑ学习的先验知识，使用模糊综合决策，完成Ｑ学习前的Ｑ表初始化工作，并将得出的Ｑ值存入Ｑ值表征模块；　步骤４，初始化其他工作参数，每个模块开始单独的进行Ｑ学习算法，根据学习规则结合动作选择算法，综合考虑所有学习模块进行决策，得出认知用户最终要采取的动作，选择频谱进行接入；　步骤５，判断选择接入的频谱是否和授权用户冲突，根据判断设置回报值，若发生冲突则计算冲突概率，否则进入步骤６；　步骤６，判断环境的政策、规划和数据是否发生改变，如果发生改变，更新环境政策规划知识库，并根据政策、规划和数据的改变调整学习的Ｑ值；　步骤７，重复步骤４～６，直到学习收敛。...

【技术特征摘要】

【专利技术属性】
技术研发人员：王金龙，吴启晖，刘琼俐，丁茜，张玉明，
申请(专利权)人：中国人民解放军理工大学通信工程学院，
类型：发明
国别省市：84[中国|南京]

全部详细技术资料下载我是这个专利的主人