策略估计网络的训练方法及装置、传输方法、设备及介质制造方法及图纸

技术编号：29138664 阅读：33 留言：0更新日期：2021-07-02 22:36

本公开实施例公开了一种策略估计网络的训练方法及装置、传输方法、设备及介质，该策略估计网络的训练方法包括：获取车辆与多个路边单元之间的信道状态数据；将所述信道状态数据输入所述策略估计网络以确定传输策略；基于所述信道状态数据和所述传输策略，确定传输时间数据；以所述传输时间数据作为约束条件，确定优化策略；以及基于所述优化策略训练所述策略估计网络，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
策略估计网络的训练方法及装置、传输方法、设备及介质
本公开涉及信息
，具体涉及一种策略估计网络的训练方法及装置、传输方法、设备及介质。
技术介绍
在车联网场景中，车与外界之间经常需要实时地交换数据。由于路边单元(基站)的情况难以预知，如何实时地确定车与路边单元之间的数据传输策略，例如传输节点的选择以及带宽的分配等，成为制约车联网发展的一个技术问题，该问题将直接导致车辆高速移动过程中通信链路不稳定。
技术实现思路
为了解决相关技术中的问题，本公开实施例提供一种策略估计网络的训练方法及装置、传输方法、设备及介质。第一方面，本公开实施例提供了一种策略估计网络的训练方法。具体地，该策略估计网络的训练方法包括：获取车辆与多个路边单元之间的信道状态数据；将所述信道状态数据输入所述策略估计网络以确定传输策略；基于所述信道状态数据和所述传输策略，确定传输时间数据；以所述传输时间数据作为约束条件，确定优化策略；以及基于所述优化策略训练所述策略估计网络。结合第一方面，本公开在第一方面的第一种实现方式中，所述传输策略包括路边单元选择、视频层数以及分配的带宽大小。结合第一方面，本公开在第一方面的第二种实现方式中，所述传输时间数据包括当前时间周期的时延、第一估计时间以及第二估计时间，其中，所述第一估计时间包括从当前时间周期到回合结束期间的累计传输估计时间，所述第二估计时间包括从下一时间周期到回合结束期间的累计传输估计时间；所述约束条件包括基于所述...

【技术保护点】
1.一种策略估计网络的训练方法，包括：/n获取车辆与多个路边单元之间的信道状态数据；/n将所述信道状态数据输入所述策略估计网络以确定传输策略；/n基于所述信道状态数据和所述传输策略，确定传输时间数据；/n以所述传输时间数据作为约束条件，确定优化策略；以及/n基于所述优化策略训练所述策略估计网络。/n

【技术特征摘要】
1.一种策略估计网络的训练方法，包括：
获取车辆与多个路边单元之间的信道状态数据；
将所述信道状态数据输入所述策略估计网络以确定传输策略；
基于所述信道状态数据和所述传输策略，确定传输时间数据；
以所述传输时间数据作为约束条件，确定优化策略；以及
基于所述优化策略训练所述策略估计网络。

2.根据权利要求1所述的方法，其中，所述传输策略包括路边单元选择、视频层数以及分配的带宽大小。

3.根据权利要求1所述的方法，其中：
所述传输时间数据包括当前时间周期的时延、第一估计时间以及第二估计时间，其中，所述第一估计时间包括从当前时间周期到回合结束期间的累计传输估计时间，所述第二估计时间包括从下一时间周期到回合结束期间的累计传输估计时间；
所述约束条件包括基于所述时延、第一估计时间以及第二估计时间之间数值关系的约束条件。

4.根据权利要求3所述的方法，其中，所述以所述传输时间数据作为约束条件，确定优化策略包括通过线性优化确定优化策略：
所述线性优化的约束条件包括所述时延、第一估计时间以及第二估计时间之间的数值关系以及各个动作的取值范围；
所述线性优化的目标函数包括以下一个或多个：视频质量最高、选择的接收节点与车辆之间距离最短以及分配的带宽最少。

5.根据权利要求4所述的方法，其中，所述线性优化的目标函数包括：
基于所述信道状态数据...

【专利技术属性】
技术研发人员：苗建松，张骞，彭昊，王储，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人