策略估计网络的训练方法及装置、传输方法、设备及介质制造方法及图纸

技术编号:29138664 阅读:33 留言:0更新日期:2021-07-02 22:36
本公开实施例公开了一种策略估计网络的训练方法及装置、传输方法、设备及介质,该策略估计网络的训练方法包括:获取车辆与多个路边单元之间的信道状态数据;将所述信道状态数据输入所述策略估计网络以确定传输策略;基于所述信道状态数据和所述传输策略,确定传输时间数据;以所述传输时间数据作为约束条件,确定优化策略;以及基于所述优化策略训练所述策略估计网络,从而精确控制传输时延,能够生成更优的传输策略,提高车辆与外界通信链路的稳定性。

【技术实现步骤摘要】
策略估计网络的训练方法及装置、传输方法、设备及介质
本公开涉及信息
,具体涉及一种策略估计网络的训练方法及装置、传输方法、设备及介质。
技术介绍
在车联网场景中,车与外界之间经常需要实时地交换数据。由于路边单元(基站)的情况难以预知,如何实时地确定车与路边单元之间的数据传输策略,例如传输节点的选择以及带宽的分配等,成为制约车联网发展的一个技术问题,该问题将直接导致车辆高速移动过程中通信链路不稳定。
技术实现思路
为了解决相关技术中的问题,本公开实施例提供一种策略估计网络的训练方法及装置、传输方法、设备及介质。第一方面,本公开实施例提供了一种策略估计网络的训练方法。具体地,该策略估计网络的训练方法包括:获取车辆与多个路边单元之间的信道状态数据;将所述信道状态数据输入所述策略估计网络以确定传输策略;基于所述信道状态数据和所述传输策略,确定传输时间数据;以所述传输时间数据作为约束条件,确定优化策略;以及基于所述优化策略训练所述策略估计网络。结合第一方面,本公开在第一方面的第一种实现方式中,所述传输策略包括路边单元选择、视频层数以及分配的带宽大小。结合第一方面,本公开在第一方面的第二种实现方式中,所述传输时间数据包括当前时间周期的时延、第一估计时间以及第二估计时间,其中,所述第一估计时间包括从当前时间周期到回合结束期间的累计传输估计时间,所述第二估计时间包括从下一时间周期到回合结束期间的累计传输估计时间;所述约束条件包括基于所述时延、第一估计时间以及第二估计时间之间数值关系的约束条件。结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述以所述传输时间数据作为约束条件,确定优化策略包括通过线性优化确定优化策略:所述线性优化的约束条件包括所述时延、第一估计时间以及第二估计时间之间的数值关系以及各个动作的取值范围;所述线性优化的目标函数包括以下一个或多个:视频质量最高、选择的接收节点与车辆之间距离最短以及分配的带宽最少。结合第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述线性优化的目标函数包括:基于所述信道状态数据和所述传输策略确定的从当前时间周期到回合结束期间的累计视频质量的估计值到达最大。结合第一方面,本公开在第一方面的第五种实现方式中,所述基于所述优化策略训练所述策略估计网络包括:以所述优化策略与所述传输策略之间的均方差作为损失函数,训练所述策略估计网络。第二方面,本公开实施例中提供了一种传输方法。具体地,该传输方法包括:获取车辆与多个路边单元之间的信道状态数据;将所述信道状态数据输入至如第一方面、第一方面的第一种至第五种实现方式中任一项的训练方法所训练的策略估计网络以确定传输策略;基于所述传输策略传输数据。第三方面,本公开实施例中提供了一种策略估计网络的训练装置。具体地,该策略估计网络的训练装置包括:获取模块,被配置为获取车辆与多个路边单元之间的信道状态数据;第一确定模块,被配置为将所述信道状态数据输入所述策略估计网络以确定传输策略;第二确定模块,被配置为基于所述信道状态数据和所述传输策略,确定传输时间数据;第三确定模块,被配置为以所述传输时间数据作为约束条件,确定优化策略;以及训练模块,被配置为基于所述优化策略训练所述策略估计网络。第四方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种至第十一种实现方式或第二方面中任一项所述的方法。第五方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种至第十一种实现方式或第二方面中任一项所述的方法。根据本公开实施例提供的技术方案,通过获取车辆与多个路边单元之间的信道状态数据;将所述信道状态数据输入所述策略估计网络以确定传输策略;基于所述信道状态数据和所述传输策略,确定传输时间数据;以所述传输时间数据作为约束条件,确定优化策略;以及基于所述优化策略训练所述策略估计网络,从而精确控制传输时延,能够生成更优的传输策略,提高车辆与外界通信链路的稳定性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:图1示出根据本公开实施例的传输方法的应用场景的示意图;图2示出根据本公开实施例的策略估计网络的训练方法的流程图;图3示出演员评论家网络的示意图;图4示出根据本公开实施例的传输方法的流程图;图5示出根据本公开实施例的策略估计网络的训练装置的框图;图6示出根据本公开实施例的传输装置的框图;图7示出根据本公开实施例的电子设备的框图;以及图8示出适于实现本公开实施例的方法和装置的计算机系统的结构示意图。具体实施方式下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。如上文所述,如何实时地确定车与路边单元之间的数据传输策略,成为制约车联网发展的一个技术问题。以视频数据为例,一些相关技术提出了基于强化学习的解决方案,该方案以视频质量作为奖励值,将传输时延作为惩罚项,共同计算回报值。然而,在这种方法中,传输时延与视频质量的平衡只能通过研究人员的经验进行调整,对于传输时延无法实现精确控制,从而无法计算最优的传输策略。图1示出根据本公开实施例的传输方法的应用场景的示意图。需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。如图1所示,车辆110在公路上行驶,多个路边单元,例如基站121-124可以作为通信链路的节点,向车辆110提供通信服务。车辆110可以通过路边单元将数据传输到云端服务器。由于车辆110在持续移动,在各个时刻,都需要确定传输策略,例如通过哪个路边单元传输数据,带宽如何分配等。策略选择不恰当,将导致车辆与外界通信链路的稳定性差。本公开实施例提供了一种策略估计网络的训本文档来自技高网
...

【技术保护点】
1.一种策略估计网络的训练方法,包括:/n获取车辆与多个路边单元之间的信道状态数据;/n将所述信道状态数据输入所述策略估计网络以确定传输策略;/n基于所述信道状态数据和所述传输策略,确定传输时间数据;/n以所述传输时间数据作为约束条件,确定优化策略;以及/n基于所述优化策略训练所述策略估计网络。/n

【技术特征摘要】
1.一种策略估计网络的训练方法,包括:
获取车辆与多个路边单元之间的信道状态数据;
将所述信道状态数据输入所述策略估计网络以确定传输策略;
基于所述信道状态数据和所述传输策略,确定传输时间数据;
以所述传输时间数据作为约束条件,确定优化策略;以及
基于所述优化策略训练所述策略估计网络。


2.根据权利要求1所述的方法,其中,所述传输策略包括路边单元选择、视频层数以及分配的带宽大小。


3.根据权利要求1所述的方法,其中:
所述传输时间数据包括当前时间周期的时延、第一估计时间以及第二估计时间,其中,所述第一估计时间包括从当前时间周期到回合结束期间的累计传输估计时间,所述第二估计时间包括从下一时间周期到回合结束期间的累计传输估计时间;
所述约束条件包括基于所述时延、第一估计时间以及第二估计时间之间数值关系的约束条件。


4.根据权利要求3所述的方法,其中,所述以所述传输时间数据作为约束条件,确定优化策略包括通过线性优化确定优化策略:
所述线性优化的约束条件包括所述时延、第一估计时间以及第二估计时间之间的数值关系以及各个动作的取值范围;
所述线性优化的目标函数包括以下一个或多个:视频质量最高、选择的接收节点与车辆之间距离最短以及分配的带宽最少。


5.根据权利要求4所述的方法,其中,所述线性优化的目标函数包括:
基于所述信道状态数据...

【专利技术属性】
技术研发人员:苗建松张骞彭昊王储
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1