当前位置: 首页 > 专利查询>南京大学专利>正文

基于在线联邦迁移学习的码率自适应策略高效训练方法技术

技术编号:39181458 阅读:8 留言:0更新日期:2023-10-27 08:29
本发明专利技术提供一种基于在线联邦迁移学习的码率自适应策略高效训练方法,步骤为:(1)用户客户端经过动态网络条件鉴别器鉴别网络类型和交通方式;(2)根据鉴别器的鉴别结果将用户聚类成规定的组别,组内用户进行联邦学习;(3)每一组的中心节点初始化加载预训练离线模型,作为初始全局模型;(4)中心节点将全局模型参数发送给组内所有用户;(5)组内用户以全局模型为基础,在线迁移训练本地模型参数,定期向中心节点发送本地更新模型参数;(6)中心节点聚合组内所有用户模型参数训练得到全局模型;(7)重复上述步骤,直至中心节点的聚合全局模型训练完毕。本发明专利技术在保证用户实时视频会话质量的同时,大大缩短在线学习模型的训练时间。大大缩短在线学习模型的训练时间。大大缩短在线学习模型的训练时间。

【技术实现步骤摘要】
基于在线联邦迁移学习的码率自适应策略高效训练方法


[0001]本专利技术涉及多媒体通信
,具体涉及一种基于在线联邦迁移学习的码率自适应策略高效训练方法。

技术介绍

[0002]在互联网基础设施和应用不断发展的推动下,实时视频服务和应用正变得越来越普遍。从在线直播、视频会议,到社交聚会甚至新兴的云游戏场景、智能远程驾驶,实时视频无形地改变着我们的生活方式。根据市场报告预测,实时视频流量将占所有互联网视频流量的17%,到2025年将在全球产生高达2173亿美元的收入。
[0003]此外,目前的内容提供商主要使用码率自适应技术来传输实时视频,即根据用户当前视频的播放情况与网络状况,自动调整切换码率,以优化用户体验质量(Quality of Experience,QoE)。近年来,基于强化学习的码率自适应方法不断涌现,它们不依赖于预先人为设定的固定规则,应用深度强化学习训练智能体学习历史实时视频流经验来生成码率自适应策略,这使得它们能够更好地适应动态的实时网络场景。
[0004]现有的算法主要包括离线学习和在线学习两类工作。现有算法大多数局限于离线学习,即在仿真器中训练好模型后再部署到实际环境中使用,难免造成仿真和真实网络环境的差距,性能退化严重。不同于离线学习,在线学习提倡用动态的实时视频流进行训练,根据新的网络环境不断完善并预测模型,而不是使用预训练模型。OnRL(Huanhuan Zhang,Anfu Zhou,Jiamin Lu,Ruoxuan Ma,Yuhan Hu,Cong Li,Xinyu Zhang,Huadong Ma,and Xiaojiang Chen.2020.OnRL:improving mobile video telephony via online reinforcement learning.In Proceedings of the 26th Annual International Conference on Mobile Computing and Networking(MobiCom'20).Association for Computing Machinery,New York,NY,USA,Article 29,1

14.)定制设计了一个在线强化学习框架,以弥合无线视频传输过程中仿真与真实环境的差距,针对不同网络在线学习最优自适应策略,进一步提升实时视频会话的QoE。
[0005]然而,现有在线学习算法相比于离线学习虽然更能适应动态网络变化,但其容易存在模型收敛时间过长的问题。一方面,没有先前经验的算法,依赖于试错探索,尤其是在训练的早期阶段,容易导致时间浪费。另一方面,算法获取用户的训练数据相对较慢,在每一次实际流化传输完成之前,算法都无法收集到对应的观察值,并且在这种情况下只有一个实际的学习代理可以用于实际视频流传输环境中的在线学习。另外,在做出决策之前等待在线模型完全训练完成是不切实际的,考虑到典型用户的实时视频会话一般不会超过一个小时且需要快速响应。

技术实现思路

[0006]针对以上现有技术中存在的缺陷,本专利技术的目的在于提供一种基于在线联邦迁移学习的码率自适应策略高效训练方法,期冀能够在一次用户的实时视频会话中进行并完成
在线训练,在保证用户会话质量的同时,缩短在线学习模型的训练时间。
[0007]为达上述目的,本专利技术采用的技术方案如下:
[0008]基于在线联邦迁移学习的码率自适应策略高效训练方法,该方法包括如下步骤:
[0009](1)每个用户客户端经过动态网络条件鉴别器鉴别用户经历的网络类型和交通方式;其中,所述用户客户端经历真实网络进行实时视频流化传输;
[0010](2)根据所述动态网络条件鉴别器的鉴别结果将用户聚类成规定的组别,相同组的用户进行组内联邦学习;
[0011](3)每一组的中心节点初始化加载一个预训练的通用离线模型;其中,所述离线模型作为中心节点的初始全局模型;
[0012](4)每一组的中心节点将全局模型参数发送给组内所有用户;
[0013](5)组内用户以全局模型为基础,根据本地网络状况在线迁移训练本地模型参数,定期向中心节点发送本地更新模型参数;
[0014](6)中心节点聚合组内所有用户的模型参数,训练得到聚合全局模型;
[0015](7)重复上述步骤(4)至(6),直至中心节点的聚合全局模型训练完毕。
[0016]相比现有技术,本专利技术的方法设计在线分组联邦迁移学习,通过网络类型和交通方式对用户进行聚类分组,将同组别的多个用户进行组内联邦学习,加快了同组别用户的在线学习训练数据获取,使得多个学习代理同时用于实际视频传输环境的在线学习,加快在线学习的效率;采用组内用户在线迁移学习,以预训练通用离线模型为基础进行迁移微调,形成“离线训练,在线微调”两级学习框架,冻结部分神经网络层,更新高层次具体特征提取层进行反向传播。在线迁移学习减少了离线预训练模型与用户在线模型之间由于仿真和实际环境差异引起的偏差,进一步适应真实的网络条件和视频内容特征,以优化码率自适应算法。离线预训练解决了样本稀缺性问题并节省训练时间,而在线微调重复使用预训练离线模型的知识,充分利用过去的经验来减轻早期的试错探索,加速新网络环境的训练过程,节约计算资源消耗并增强模型的泛化能力。
附图说明
[0017]图1是本专利技术方法的系统架构图。
[0018]图2是本专利技术与OnRL在无线网络&轮船组别测试集下在线学习模型训练时间曲线对比图。
[0019]图3是本专利技术与ARS、OnRL在测试集上取得的性能对比图,以ARS为1基准的码率效用,卡顿惩罚,延迟惩罚归一化平均值表示。
具体实施方式
[0020]下面将结合附图及具体实施例对本专利技术进行详细描述。
[0021]本实施例提升方法的整体系统框架如图1所示,图中表示用户客户端经历实时视频流环境、由动态网络条件鉴别器鉴别分组到组内联邦学习的过程。其具体工作流程如下:
[0022](1)每个用户客户端经过动态网络条件鉴别器,根据网络服务提供商提供的信息和手机的全球定位系统、传感器,鉴别用户经历的网络类型和交通方式;其中,所述用户客户端经历真实网络进行实时视频流化传输;所述动态网络条件鉴别器通过对用户客户端经
历的真实网络进行实时监测和鉴别,定期动态检测用户端的网络条件,用户客户端可以灵活地与对应组别的中心节点交互模型参数;
[0023](2)根据动态网络条件鉴别器的鉴别结果将用户聚类成规定的组别,相同组的用户进行组内联邦学习;
[0024](3)每一组的中心节点初始化加载一个预训练的通用离线模型;其中,所述的离线模型作为中心节点的初始全局模型;
[0025](4)每一组的中心节点将全局模型参数发送给组内所有用户;所述全局模型参数包括神经网络中所有层的权重和偏置、模型梯度等可学习的参数。所述参数定义了神经网络的结构和特征提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,该方法包括如下步骤:(1)每个用户客户端经过动态网络条件鉴别器鉴别用户经历的网络类型和交通方式;其中,所述用户客户端经历真实网络进行实时视频流化传输;(2)根据所述动态网络条件鉴别器的鉴别结果将用户聚类成规定的组别,相同组的用户进行组内联邦学习;(3)每一组的中心节点初始化加载一个预训练的通用离线模型;其中,所述离线模型作为中心节点的初始全局模型;(4)每一组的中心节点将全局模型参数发送给组内所有用户;(5)组内用户以全局模型为基础,根据本地网络状况在线迁移训练本地模型参数,定期向中心节点发送本地更新模型参数;(6)中心节点聚合组内所有用户的模型参数,训练得到聚合全局模型;(7)重复上述步骤(4)至(6),直至中心节点的聚合全局模型训练完毕。2.根据权利要求1所述的基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,步骤(1)中,所述动态网络条件鉴别器通过对用户客户端经历的真实网络进行实时监测和鉴别,定期动态检测用户端的网络条件,用户客户端可以灵活地与对应组别的中心节点交互模型参数。3.根据权利要求1所述的基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,步骤(1)中,所述用户经历的网络类型包括第三代移动通信网络、...

【专利技术属性】
技术研发人员:陈浩郑倩媛马展
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1