基于通信感知一体化系统的优化方法、装置、系统及可读存储介质制造方法及图纸

技术编号:38929355 阅读:13 留言:0更新日期:2023-09-25 09:35
本发明专利技术提供了一种基于通信感知一体化系统的优化方法、装置、系统及可读存储介质,包括:S1:初始化基于太赫兹通信的通信感知一体化系统;S2:将车联网系统进行降维处理后,与S1中初始化后的通信感知一体化系统进行融合处理,获取深度强化学习中智能体的原始当前状态;S3:将原始当前状态输入TD3神经网络进行训练,输出优化当前状态;S4:将优化当前状态输入TD3神经网络,输出时变动态环境下的智能体的混合预编码和功率分配的最优策略动作。本发明专利技术中提出的车联网中智能联合同步资源优化对于发展未来动态环境下基于通信感知一体化系统的优化系统具有指导意义。的优化系统具有指导意义。的优化系统具有指导意义。

【技术实现步骤摘要】
基于通信感知一体化系统的优化方法、装置、系统及可读存储介质


[0001]本专利技术涉及通信感知一体化
,尤其涉及一种基于通信感知一体化系统的优化方法、装置、系统及可读存储介质,具体地为一种在动态环境下的智能联合资源优化的基于通信感知一体化系统的优化方法、装置、系统及可读存储介质。

技术介绍

[0002]随着智慧城市、智慧交通、智能工业的发展,互联自动驾驶将占据主导地位。在未来车联网的架构下,网络不仅要具备高速的数据传输能力,还更应具有感知能力去为车辆提供精准的定位服务以发展更加安全的智能自动驾驶。由雷达通信、联合雷达通信、双功能雷达通信逐步发展到更为广泛的通信感知一体化技术将进一步支撑未来移动通信网络的发展。通信感知一体化高度集成通信和感知,在共享频谱的基础上可以增加频谱利用率,同时通过引入人工智能进行智能资源优化以提升系统的整体性能。目前的研究大多集中在基站调度模式即基站与车辆进行通信和感知,这样一方面无法满足6G所需的超低时延通信的要求,另一方面由于车辆与基站通信,但是需要感知的是其他车辆和设施,因此无法将感知与通信进行高度集成。车联网中的终端调度资源模式即车辆与目标直接同时进行通信和感知并对自身进行资源优化,可以降低车联网的时延,同时利用通信信号作为雷达探测波形可以高度集成通信和感知。但是目前资源优化方法是静态且交替进行求解优化,对于通信感知一体化系统传统方法很难联合同步优化通信和感知系统指标。
[0003]因此,有必要研究一种在动态环境下的智能联合资源优化的基于通信感知一体化系统的优化方法、装置、系统及可读存储介质来应对现有技术的不足,以解决或减轻上述一个或多个问题。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种在动态环境下的智能联合资源优化的基于通信感知一体化系统的优化方法、装置、系统及可读存储介质,其中提出的车联网中智能联合同步资源优化对于发展未来动态环境下基于通信感知一体化系统的优化系统具有指导意义。
[0005]一方面,本专利技术提供一种基于通信感知一体化系统的优化方法,车联网系统包括通信感知一体化系统和其他子系统,所述通信感知一体化系统是车联网系统中通信系统和感知系统融合之后的系统,所述基于通信感知一体化系统的优化方法包括以下步骤:
[0006]S1:初始化基于太赫兹通信的通信感知一体化系统;
[0007]S2:将车联网系统中其他子系统进行降维处理后,与S1中初始化后的通信感知一体化系统进行融合处理,获取深度强化学习中智能体的原始当前状态;
[0008]S3:将原始当前状态输入TD3神经网络进行训练,输出优化当前状态;
[0009]S4:将优化当前状态输入TD3神经网络,输出时变动态环境下的智能体的混合预编码和功率分配的最优策略动作。
[0010]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S1具体为:初始化通信感知一体化系统中时变不同时刻的信道状态、所有车辆的模拟预编码矩阵和功率分配的策略动作、深度强化学习的训练轮数以及TD3神经网络和元学习网络结构和参数;
[0011]其中信道状态是车联网下通信感知一体化系统的基本参数,模拟预编码矩阵和功率分配是优化的策略动作,深度强化学习、TD3神经网络和元学习是优化策略动作的方法。
[0012]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S2具体包括:
[0013]S21:将车联网系统中不同时刻的信道状态划分为多个任务组成任务集,启动初始化后的元学习,所述元学习通过对任务集的学习进行学习能力的泛化;
[0014]S22:判断S31中元学习是否结束,若元学习结束,则进行S4;若元学习未结束,则在任务集中随机抽样选取多个任务,进行S23,所述元学习通过S21中的任务集的学习进行学习能力的泛化;
[0015]S23:将多个任务中单个任务下系统的信道状态矩阵降为一维并和初始化的一维策略动作组合在一起,然后输出为原始当前状态,所述初始化一维的策略动作是随机的混合预编码矩阵和功率分配因子。
[0016]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S3具体包括:
[0017]S31:判断元学习的训练轮数是否达到预设,若达到预设训练的轮数,则优化更新元学习网络的参数,同时输出原始当前状态为优化当前状态;若没有达到预设训练的轮数则进行步骤S32:
[0018]S32:将原始当前状态输入到TD3神经网络中,并通过TD3神经网络输出系统中所有车辆的模拟预编码和功率分配策略动作;
[0019]S33:将TD3神经网络所获得模拟预编码矩阵通过迫零方法计算出数字预编码矩阵并共同组成混合预编码方案,TD3神经网络也将输出功率分配方案,并结合当前信道状态,通过建立的数学模型进行reward计算,reward计算对象为通信系统的平均传输速率和感知系统的波束误差,reward计算为求和计算;
[0020]S34:将混合预编码方案、功率分配方案、reward和当前信道状态四个元素储存到经验池中;
[0021]S35:判断经验池中的经验数量是否达到预设的经验池最大容量,若没有达到最大容量,则进行S36,若经验池存储满经验,从经验池中随机抽取经验进行学习训练,在学习训练的过程中不断更新TD3神经网络的参数,并用该参数去进行元学习网络参数的优化;
[0022]S36:将信道状态和神经网络输出的策略动作重新组合成原始当前状态,重复进行S31。
[0023]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S31预设的训练轮数通过S31

S36的收敛结果进行设置,设置训练轮数上限为reward值不再增加时的训练的次数作为训练轮数。
[0024]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述判断预设的训练轮数方法具体为:首先对训练轮数进行初始范围的预判断,预判断结果不符后对
初始范围进行等量增幅,随后再次进行预判断,直到reward值不再增加,所述初始范围为400

600轮,等量增幅范围为400

600轮。
[0025]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S22中判断元学习是否需要结束的方法具体如下:
[0026]元学习通过梯度下降方法进行参数更新,并且更新方式为:
[0027]ω

=ω

αG;
[0028]其中ω

表示元学习更新后的参数,ω为元学习更新前的参数,G为计算的任务损失梯度,α为元学习参数更新的学习率,当所有任务与元学习迭代后,元学习结束。
[0029]如上所述的方面和任一可能的实现方式,进一步提供一种基于通信感知一体化系统的优化装置,所述优化装置为用于通信感知一体化系统进行资源优化的装置,所述优化装置包括:
[0030]初始化模块,用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于通信感知一体化系统的优化方法,车联网系统包括通信感知一体化系统和其他子系统,所述通信感知一体化系统是车联网系统中通信系统和感知系统融合之后的系统,其特征在于,所述基于通信感知一体化系统的优化方法包括以下步骤:S1:初始化基于太赫兹通信的通信感知一体化系统;S2:将车联网系统中其他子系统进行降维处理后,与S1中初始化后的通信感知一体化系统进行融合处理,获取深度强化学习中智能体的原始当前状态;S3:将原始当前状态输入TD3神经网络进行训练,输出优化当前状态;S4:将优化当前状态输入TD3神经网络,输出时变动态环境下的智能体的混合预编码和功率分配的最优策略动作。2.根据权利要求1所述的基于通信感知一体化系统的优化方法,其特征在于,所述S1具体为:初始化通信感知一体化系统中时变不同时刻的信道状态、所有车辆的模拟预编码矩阵和功率分配的策略动作、深度强化学习的训练轮数以及TD3神经网络和元学习网络结构和参数;其中信道状态是车联网下通信感知一体化系统的基本参数,模拟预编码矩阵和功率分配是优化的策略动作,深度强化学习、TD3神经网络和元学习是优化策略动作的方法。3.根据权利要求2所述的基于通信感知一体化系统的优化方法,其特征在于,所述S2具体包括:S21:将车联网系统中不同时刻的信道状态划分为多个任务组成任务集,启动初始化后的元学习,所述元学习通过对任务集的学习进行学习能力的泛化;S22:判断S31中元学习是否结束,若元学习结束,则进行S4;若元学习未结束,则在任务集中随机抽样选取多个任务,进行S23,所述元学习通过S21中的任务集的学习进行学习能力的泛化;S23:将多个任务中单个任务下系统的信道状态矩阵降为一维并和初始化的一维策略动作组合在一起,然后输出为原始当前状态,所述初始化一维的策略动作是随机的混合预编码矩阵和功率分配因子。4.根据权利要求3所述的基于通信感知一体化系统的优化方法,其特征在于,所述S3具体包括:S31:判断元学习的训练轮数是否达到预设,若达到预设训练的轮数,则优化更新元学习网络的参数,同时输出原始当前状态为优化当前状态;若没有达到预设训练的轮数则进行步骤S32:S32:将原始当前状态输入到TD3神经网络中,并通过TD3神经网络输出系统中所有车辆的模拟预编码和功率分配策略动作;S33:将TD3神经网络所获得模拟预编码矩阵通过迫零方法计算出数字预编码矩阵并共同组成混合预编码方案,TD3神经网络也将输出功率分配方案,并结合当前信道状态,通过建立的数学模型进行reward计算,获得reward值,reward计算对象为通信系统的平均传输速率和感知系统的波束误差,reward计算为求和计算;S34:将混合预编码方案、功率分配方案、rew...

【专利技术属性】
技术研发人员:张海君高宏伟刘向南李浩进隆克平
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1