决策方法和决策装置制造方法及图纸

技术编号:33506786 阅读:18 留言:0更新日期:2022-05-19 01:16
本申请提供了一种决策方法和决策装置,该方法包括:第一网元为第一通信装置确定决策模型,该决策模型是基于第一通信装置的组别确定的;第一网元向第一通信装置发送该决策模型,对应地,第一通信装置接收该决策模型;第一通信装置根据该决策模型进行任务决策。本申请有利于降低训练决策模型的复杂程度,提高决策系统的灵活度和可扩展性。统的灵活度和可扩展性。统的灵活度和可扩展性。

【技术实现步骤摘要】
决策方法和决策装置


[0001]本申请涉及无线通信领域,尤其涉及一种决策方法和决策装置。

技术介绍

[0002]随着无线通信技术的发展,无线通信系统的任务从单一的语言传输任务,发展到执行检测、协作、控制、决策和优化等任务,因此,无线通信系统中存在大量的决策类任务,例如,无线资源调度、功率控制等。解决无线通信系统中的决策任务,通常将决策问题建模成优化问题,通过解优化的方法,得到决策动作,也可以将决策问题建模成马尔科夫决策过程,通过人工智能的方式进行求解,得到决策动作。
[0003]现有技术中,采用完全多智能体强化学习的方法求解马尔科夫决策过程,得到决策动作。完全多智能体强化学习的方法是为每一个决策主体训练一种强化学习模型,当决策主体较多时,训练强化学习模型的复杂度高,且决策主体间会相互影响,导致系统不稳定,同时,当有新的决策主体加入时,马尔科夫决策过程会发生变化,需要重新训练强化学习模型,导致该方法可扩展性差。

技术实现思路

[0004]本申请提供一种决策方法和决策装置,有利于降低训练决策模型的复杂程度,提高决策系统的灵活本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种决策方法,其特征在于,包括:第一通信装置接收来自第一网元的决策模型,所述决策模型是基于所述第一通信装置的组别确定的;所述第一通信装置根据所述决策模型进行任务决策。2.根据权利要求1所述的方法,其特征在于,所述第一通信装置接收来自第一网元的决策模型之前,所述方法还包括:所述第一通信装置向所述第一网元发送第一请求消息,所述第一请求消息用于请求所述第一通信装置的决策模型。3.根据权利要求2所述的方法,其特征在于,所述第一请求消息包括所述第一通信装置的组别。4.根据权利要求2所述的方法,其特征在于,所述第一请求消息包括以下信息中一个或者多个:所述第一通信装置的物理小区标识、所述第一通信装置的邻区关系表、所述第一通信装置的类别、所述第一通信装置的位置信息。5.根据权利要求3所述的方法,其特征在于,所述第一通信装置向所述第一网元发送第一请求消息之前,所述方法还包括:所述第一通信装置根据所述第一通信装置的物理小区标识或者所述第一通信装置的邻区关系表或者所述第一通信装置的类别或者所述第一通信装置的位置信息,确定所述第一通信装置的组别。6.根据权利要求5所述的方法,其特征在于,所述第一通信装置根据所述第一通信装置的物理小区标识,确定所述第一通信装置的组别,包括:所述第一通信装置对所述第一通信装置的物理小区标识与组别总数做取余运算,得到余数;所述第一通信装置根据所述余数,确定所述第一通信装置的组别。7.根据权利要求5所述的方法,其特征在于,所述第一通信装置根据所述第一通信装置的邻区关系表,所述确定所述第一通信装置的组别,包括:所述第一通信装置对所述第一通信装置的邻区关系表中的每个物理小区标识与组别总数做取余运算,得到余数;所述第一通信装置根据所述每个物理小区标识对应的不同余数的个数,确定所述第一通信装置的组别。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:所述第一通信装置基于所述第一通信装置的训练样本,调整所述决策模型,所述第一通信装置的训练样本包括所述决策模型的状态信息、动作信息和收益信息。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述第一通信装置的分组依据为小区间的干扰关系、所述第一通信装置的类别或者所述第一通信装置的位置信息。10.根据权利要求1至9中任一项所述的方法,其特征在于,所述决策模型是所述第一网元从多个决策模型中确定的,所述多个决策模型对应通信装置的多个组别,每个所述组别对应的决策模型是基于每个所述组别包括的通信装置的训练样本训练得到的。11.一种决策方法,其特征在于,包括:
第一网元为第一通信装置确定决策模型,所述决策模型是基于所述第一通信装置的组别确定的;所述第一网元向所述第一通信装置发送所述决策模型。12.根据权利要求11所述的方法,其特征在于,所述第一网元为第一通信装置确定决策模型之前,所述方法还包括:所述第一网元接收来自所述第一通信装置的第一请求消息,所述第一请求消息用于请求所述第一通信装置的决策模型;所述第一网元为第一通信装置确定决策模型,包括:所述第一网元根据所述第一请求消息,为所述第一通信装置确定所述决策模型。13.根据权利要求12所述的方法,其特征在于,所述第一请求消息包括所述第一通信装置的组别。14.根据权利要求12所述的方法,其特征在于,所述第一请求消息包括以下信息中一个或者多个:所述第一通信装置的物理小区标识、所述第一通信装置的邻区关系表、所述第一通信装置的类别、所述第一通信装置的位置信息。15.根据权利要求14所述的方法,其特征在于,所述第一网元根据所述第一请求消息,为所述第一通信装置确定决策模型,包括:所述第一网元对所述第一通信装置的物理小区标识与组别总数做取余运算,得到余数;所述第一网元根据所述余数,确定所述第一通信装置的组别;所述第一网元根据所述第一通信装置的组别,为所述第一通信装置确定所述决策模型。16.根据权利要求14所述的方法,其特征在于,所述第一网元根据所述第一请求消息,为所述第一通信装置确定决策模型,包括:所述第一网元对所述第一通信装置的邻区关系表中的每个物理小区标识与组别总数做取余运算,得到所述每个物理小区标识对应的余数;所述第一网元根据所述每个物理小区标识对应的不同余数的个数,确定所述第一通信装置的组别;所述第一网元根据所述第一通信装置的组别,为所述第一通信装置确定所述决策模型。17.根据权利要求11至16中任一项所述的方法,其特征在于,所述方法还包括:所述第一网元从多个决策模型中确定所述决策模型,所述多个决策模型对应通信装置的多个组别,每个所述组别对应的决策模型是基于每个所述组别包括的通信装置的训练样本训练得到的。18.根据权利要求11至17中任一项所述的方法,其特征在于,所述方法还包括:所述第一网元根据网络中的通信装置的信息,对所述网络中的通信装置进行分组,得到至少一个组别,每个组别包括至少一个通信装置,所述至少一个组别中包括所述第一通信装置属于的组别;所述第一网元获取每个组别包括的通信装置的训练样本;
所述第一网元基于所述每个组别包括的通信装置的训练样本,分别训练所述每个组别对应的决策模型。19.根据权利要求18所述的方法,其特征在于,所述第一网元根据网络中的通信装置的信息,对所述网络中的通信装置进行分组,得到至少一个组别,包括:所述第一网元根据所述网络中通信装置的小区间的干扰关系、所述网络中通信装置的类别或者所述网络中通信装置的位置信息,对所述网络中的通信装置进行分组,得到至少一个组别。20.根据权利要求11至19中任一项所述的方法,其特征在于,所述方法还包括:所述第一网元接收来自第二网元的一个或多个决策模型,所述一个或多个决策模型对应通信装置的一个或多个组别,每个所述组别对应的决策模型是基于每个所述组别包括的通信装置的训练样本训练得到的。21.一种决策装置,其特征在于,包括:收发单元,用于接收来自第一网元的决策模型,所述决策模型是基于所述装置的组别确定的;处理单元,用于根据所述决策模型进行任务决策。22.根据权利要求21所述的装置,其特征在于,所述收发单元用于:向所述第一网元发送第一请求消息,所述第一请求消...

【专利技术属性】
技术研发人员:叶德仕孙武杰王坚
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1