智能体决策的方法和装置制造方法及图纸

技术编号:29791994 阅读:15 留言:0更新日期:2021-08-24 18:11
本申请提供一种智能体决策的方法和装置,能够提高智能体决策的性能。所述方法应用于通信系统中,通信系统中包括至少两个功能模块,至少两个功能模块包括第一功能模块和第二功能模块,第一功能模块配置有第一智能体,第二功能模块配置有第二智能体,该方法包括:第一智能体获取第二智能体的相关信息,并根据该第二智能体的相关信息进行第一功能模块的决策。

【技术实现步骤摘要】
智能体决策的方法和装置
本申请涉及通信领域,并且更具体地,涉及一种智能体决策的方法和装置。
技术介绍
现有的通信系统往往被分割成多个功能模块,例如,在传输音视频等多媒体业务的多媒体通信系统中,服务音视频编解码功能的模块和负责通信的模块是相对独立的两个模块。系统设计人员只需要针对各模块的功能,对各模块进行逐一设计和优化即可。同理,通信协议也往往被分成多层,每层各司其职,完成相应任务。例如,经典的传输控制协议/互联网协议(TransmissionControlProtocol/InternetProtocol,TCP/IP)模型,应用层负责程序间的数据沟通,提供文件传输、邮件、远程登录等业务协议;传输层负责提供端到端的可靠或非可靠的通信;网络层负责地址管理和路由选择;数据链路层负责处理数据在物理媒介上的传输。分模块或分层的系统设计或协议设计的优化方法割裂了模块之间或层之间的相互作用关系,往往只能得到局部最优的解决方案。目前,提出的跨模块/跨层的优化方法是将多个相互关联的模块或层联合在一起做考虑,建立统一的考虑多模块/多层参数的优化问题,通过设定一个优化目标,用数学公式或数学模型的方式表达出来,并求解该优化问题,得到在考虑了各模块/各层相互制约关系前提下的解决方案。此方法的建模过程往往比较复杂,很多时候是需要简化,导致整个问题和实际问题不是完全一致,只能提供启发式的解法,而启发式的算法往往无法达到最优性能。除此之外,此方法是针对某一场景的优化问题进行建模,当系统发生变化时,该模型将不再适用,需要重新求解优化问题,此方法使得跨模块/跨层的优化方法的复杂度很高。
技术实现思路
本申请提供一种智能体决策的方法和装置,能够提高智能体决策的性能。第一方面,提供一种智能体决策的方法,所述方法应用于通信系统中,所述通信系统包括至少两个功能模块,所述至少两个功能模块包括第一功能模块和第二功能模块,所述第一功能模块配置有第一智能体,所述第二功能模块配置有第二智能体,该方法包括:所述第一智能体获取所述第二智能体的相关信息;所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策。基于上述技术方案,在通信系统的不同模块可以按需部署不同的智能体,所述智能体可以通过获取除本功能模块之外的其他功能模块中配置的智能体的相关信息,在做决策时考虑本模块与其他模块之间协调性,从而做出最优的决策;除此之外,所述智能体通过与环境进行交互,可以自适应于环境的变化,则当环境状态发生变化时,无需重新建立优化求解的模型。因此,本申请实施例提供的技术方案,能够提高智能体决策的性能。在一种可能的实现方式中,所述第二智能体的相关信息包括以下至少一种信息:所述第二智能体对所述第一智能体的历史决策做出的第一评价参数、所述第二智能体的历史决策、所述第二智能体的神经网络参数、所述第二智能体的神经网络参数的更新梯度。在一种可能的实现方式中,所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策,包括:所述第一智能体根据所述第一功能模块的相关信息和/或所述第二功能模块的相关信息,以及所述第二智能体的相关信息进行所述第一功能模块的决策。在一种可能的实现方式中,所述第一功能模块的相关信息包括所述第一功能模块的当前环境状态信息、所述第一功能模块的预测环境状态信息、所述第一功能模块对所述第一智能体的历史决策做出的第二评价参数中的至少一种信息;所述第二功能模块的相关信息包括所述第二功能模块的当前环境状态信息和/或所述第二功能模块的预测环境状态信息。在一种可能的实现方式中,所述第一功能模块包括无线链路控制RLC层功能模块、媒体访问控制MAC层功能模块和物理PHY层功能模块中的一个功能模块;所述第二功能模块包括所述RLC层功能模块、所述MAC层功能模块和所述PHY层功能模块中除所述第一功能模块以外的至少一个功能模块。在一种可能的实现方式中,所述第一功能模块包括通信功能模块和信源编码功能模块中的一个功能模块;所述第二功能模块包括通信功能模块和信源编码功能模块中除所述第一功能模块以外的功能模块。第二方面,提供了一种通信装置,包括:第一功能模块;第二功能模块;配置在所述第一功能模块中的第一智能体;配置在所述第二功能模块中的第二智能体;所述第一智能体包括:通信接口,用于获取所述第二智能体的相关信息,处理单元,用于根据所述第二智能体的相关信息进行所述第一功能模块的决策。在一种可能的实现方式中,所述第二智能体的相关信息包括以下至少一种信息:所述第二智能体对所述第一智能体的历史决策做出的第一评价参数、所述第二智能体的历史决策、所述第二智能体的神经网络参数、所述第二智能体的神经网络参数的更新梯度。在一种可能的实现方式中,所述处理单元具体用于:根据所述第一功能模块的相关信息和/或所述第二功能模块的相关信息,以及所述第二智能体的相关信息进行所述第一功能模块的决策。在一种可能的实现方式中,所述第一功能模块的相关信息包括所述第一功能模块的当前环境状态信息、所述第一功能模块的预测环境状态信息、所述第一功能模块对所述第一智能体的历史决策做出的第二评价参数中的至少一种信息;所述第二功能模块的相关信息包括所述第二功能模块的当前环境状态信息和/或所述第二功能模块的预测环境状态信息。在一种可能的实现方式中,所述第一功能模块包括无线链路控制RLC层功能模块、媒体访问控制MAC层功能模块和物理PHY层功能模块中的一个功能模块;所述第二功能模块包括所述RLC层功能模块、所述MAC层功能模块和所述PHY层功能模块中除所述第一功能模块以外的至少一个功能模块。在一种可能的实现方式中,所述第一功能模块包括通信功能模块和信源编码功能模块中的一个功能模块;所述第二功能模块包括通信功能模块和信源编码功能模块中除所述第一功能模块以外的功能模块。第三方面,提供了一种网络设备,包括:存储器,用于存储可执行指令;处理器,用于调用并运行所述存储器中的所述可执行指令,以执行第一方面或第一方面任意可能的实现方式中的方法。第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,当所述程序指令由处理器运行时,实现第一方面或第一方面任意可能的实现方式中的方法。第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,当所述计算机程序代码在计算机上运行时,实现第一方面或第一方面任意可能的实现方式中的方法。附图说明图1为强化学习训练方法的示意图;图2为多层感知机的示意图;图3为损失函数优化示意图;图4为梯度反向传播示意图;图5为本申请实施例的智能体决策的方法的示意性流程图;图6为本申请实施例的智能体决策的方法的一种实施方式的示意性框图;图7为本申请实施例的智能体决策的方法的另一种实施方式的示意性框图;图8为本申请实施例的智能体决策的方法的另一种实施方式的示意性框图;图9为本申请实施例的智能体本文档来自技高网
...

【技术保护点】
1.一种智能体决策的方法,其特征在于,应用于通信系统中,所述通信系统包括至少两个功能模块,所述至少两个功能模块包括第一功能模块和第二功能模块,所述第一功能模块配置有第一智能体,所述第二功能模块配置有第二智能体,所述方法包括:/n所述第一智能体获取所述第二智能体的相关信息;/n所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策。/n

【技术特征摘要】
1.一种智能体决策的方法,其特征在于,应用于通信系统中,所述通信系统包括至少两个功能模块,所述至少两个功能模块包括第一功能模块和第二功能模块,所述第一功能模块配置有第一智能体,所述第二功能模块配置有第二智能体,所述方法包括:
所述第一智能体获取所述第二智能体的相关信息;
所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策。


2.根据权利要求1所述的方法,其特征在于,所述第二智能体的相关信息包括以下至少一种信息:
所述第二智能体对所述第一智能体的历史决策做出的第一评价参数、所述第二智能体的历史决策、所述第二智能体的神经网络参数、所述第二智能体的神经网络参数的更新梯度。


3.根据权利要求1或2所述的方法,其特征在于,所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策,包括:
所述第一智能体根据所述第一功能模块的相关信息和/或所述第二功能模块的相关信息,以及所述第二智能体的相关信息进行所述第一功能模块的决策。


4.根据权利要求3所述的方法,其特征在于,
所述第一功能模块的相关信息包括所述第一功能模块的当前环境状态信息、所述第一功能模块的预测环境状态信息、所述第一功能模块对所述第一智能体的历史决策做出的第二评价参数中的至少一种信息;
所述第二功能模块的相关信息包括所述第二功能模块的当前环境状态信息和/或所述第二功能模块的预测环境状态信息。


5.根据权利1-4中任一项所述的方法,其特征在于,
所述第一功能模块包括无线链路控制RLC层功能模块、媒体访问控制MAC层功能模块和物理PHY层功能模块中的一个功能模块;
所述第二功能模块包括所述RLC层功能模块、所述MAC层功能模块和所述PHY层功能模块中除所述第一功能模块以外的至少一个功能模块。


6.根据权利1-4中任一项所述的方法,其特征在于,所述第一功能模块包括通信功能模块和信源编码功能模块中的一个功能模块;
所述第二功能模块包括通信功能模块和信源编码功能模块中除所述第一功能模块以外的功能模块。


7.一种通信装置,其特征在于,包括:
第一功能模块;
第二功能模块;
配置在所述第一功能模块中的第一智能体;
配置在所述第二功能模块中的第二智能体;
所述第一智能体包括:
通信接口,...

【专利技术属性】
技术研发人员:王坚徐晨皇甫幼睿李榕王俊
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1