【技术实现步骤摘要】
一种基于强化学习的数据块传输准时性提升方法
[0001]本专利技术涉及多媒体领域,具体为用于延迟敏感多媒体应用的一种基于强化学习的数据块传输准时性提升方法。
技术介绍
[0002]目前,实时或交互式媒体应用程序(如在线课程、视频会议等)需要低延迟以满足其多种服务的要求。这些延迟敏感多媒体应用程序通常用数据块来传输数据。数据块不能按时到达会严重影响用户体验,如视频会议过程中卡顿可能导致用户更换视频会议应用。延迟敏感应用程序应该在最大可接受的端到端延迟内将每个数据块传输完毕,保证每个数据块的传输都具有准时性。
[0003]数据块的发送速率是影响数据块准时性的一个重要因素,可以通过调整发送速率使更多的数据块准时到达。数据块的发送速率与网络当前时刻的可用带宽紧密相关,例如在网络可用带宽紧张时,如果增加发送速率,会导致数据块中的数据包大量丢失,从而验证用户体验。数据块的调度是影响数据块准时性的另一个重要因素,选择一个数据块传输可能会导致其他数据块超时过期,从而影响用户体验。
[0004]数据块的发送速率通常通过拥塞控制 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的数据块传输准时性提升方法,其步骤包括:1)延迟敏感多媒体应用收集当前时刻t的网络状态s
t
,并将其与待发送的数据块一起发送发送速率控制模块;2)所述发送速率控制模块基于强化学习算法根据当前时刻t的网络状态s
t
,选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作,执行动作得到当前时刻t的发送速率并发送给数据块调度模块;3)所述数据块调度模块选择当前时刻t最先发送的数据块,然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用。2.根据权利要求1所述的方法,其特征在于,所述强化学习算法为基于深度Q网络强化学习算法。3.根据权利要求2所述的方法,其特征在于,所述发送速率控制模块在深度Q网络算法中设置代理、状态、奖励和动作;然后根据动作选择策略调整发送速率并基于所述奖励计算所得价值调整动作选择策略中的参数;其中,所述代理为深度Q网络算法的执行单元,用于根据所述网络状态s
t
和动作选择策略选取一动作,并得到执行此动作后的新状态和奖励;然后将所述网络状态s
t
、选择的动作、新状态和奖励存入经验池;所述状态包括一定时间间隔内的最大带宽max_bw、当前时刻的带宽bw、当前时刻的往返时间rrt;所述动作用于控制发送速率,是一条更改发送速率值的命令,执行动作即按照动作更改发送速率的值。4.根据权利要求3所述的方法,其特征在于,根据所述网络状态s
t
和动作选择策略选取一动作的方法为:所述动作选择策略根据所述网络状态s
t
,以概率ε执行ε
‑
贪心探索方法或以1
‑
ε概率通过神经网络计算输出动作a
t
。5.根据权利要求3所述的方法,其特征在于,所述奖励Reward=α(last_rtt
‑
rtt+γ)
‑
β(drop_packet_nums);其中,last_rtt是上一时刻的往返时间,drop_pack...
【专利技术属性】
技术研发人员:杨威,李玉冰,姜萍,周舟,刘庆云,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。