一种码率自适应选择方法及装置制造方法及图纸

技术编号:37664886 阅读:13 留言:0更新日期:2023-05-26 04:22
本发明专利技术提供一种码率自适应选择方法及装置,所述方法包括:获取当前视频块的状态空间、下一视频块的动作空间以及预设强化学习模型,将当前视频块状态空间中的向量部分输入一维卷积层得到第一特征向量,将状态空间中的标量输入第一全连接层得到第二特征向量,将第一特征向量和第二特征向量输入第二全连接层得到第三特征向量后输入Softmax层传输下一视频块时选择的各码率副本的概率,并通过内外奖励折扣累计值对预设强化学习模型的参数进行更新。本发明专利技术能够使得预设强化学习模型输出的码率副本最大化提高用户观看视频时的体验质量,同时减少视频块缓冲对用户体验质量的影响。时减少视频块缓冲对用户体验质量的影响。时减少视频块缓冲对用户体验质量的影响。

【技术实现步骤摘要】
一种码率自适应选择方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种码率自适应选择方法及装置。

技术介绍

[0002]随着基于HTTP(超文本传输协议)的视频流通信数据量的快速增长,用户对于下载视频的感知体验质量需求也日益上升,缓冲时间、平均播放比特率、比特率切换频率等指标已经成为衡量QoE(用户体验质量)的关键因素。在复杂的互联网视频传输生态系统中,部署在超文本传输协议服务器或客户端播放器中的比特率自适应(ABR)算法对于优化用户体验至关重要。现有的基于强化学习的码率自适应方法不能根据状态空间的变化调整视频块的码率选择策略,使得任务目标之间相互冲突,如高码率的视频块与低网速之间的冲突,同时现有的码率自适应方法不能准确地反馈用户的需求,从而导致用户端出现视频播放中断、不清晰的问题,降低了用户体验。

技术实现思路

[0003]鉴于此,本专利技术实施例提供了一种码率自适应选择方法及装置。以解决现有技术的码率自适应方法不能根据状态空间的变化调整视频块的码率选择策略,同时不能反馈用户需求的问题。
[0004]本专利技术的一个方面提供了一种码率自适应选择方法,该方法包括以下步骤:
[0005]由视频提供方获取视频源,将所述视频源按照设定时长分割为连续的多个视频块,每个视频块按照多个码率压缩为对应的多个码率副本;在初始状态下,所述视频提供方根据视频请求方的请求发送第一个视频块的指定码率副本,并传输至缓存空间;
[0006]在传输过程中,将当前视频块传输过程中的网络状态、视频内容状态和播放器状态构建为状态空间;所述网络状态包括已传输各视频块在传输过程中的平均吞吐量;所述视频内容状态包括当前视频块及其前设定数量个视频块的下载时间集合、所述当前视频块所有码率副本的文件大小集合,以及上一个视频块的感知质量参数;所述播放器状态包括缓冲区中未播放的所有视频块的时长、所述当前视频块的码率以及所述视频源中剩余未传输视频块的数量;其中,已传输各视频块在传输过程中的平均吞吐量、当前视频块及其前设定数量个视频块的下载时间集合、所述当前视频块所有码率副本的文件大小集合为状态中的向量部分,其余为状态中的标量部分;
[0007]将下一个视频块能够选择的各码率副本构建为动作空间;
[0008]获取预设强化学习模型,所述预设强化学习模型包括一维卷积层、第一全连接层、第二全连接层以及Softmax层;将状态中的向量部分输入所述一维卷积层得到第一特征向量,将状态中的标量部分输入至所述第一全连接层得到第二特征向量,将所述第一特征向量和所述第二特征向量结合并输入所述第二全连接层得到第三特征向量,将所述第三特征向量输入所述Softmax层并输出传输下一视频块时选择的各码率副本的概率,选择下一视频块概率最大的码率副本传输至缓存区;
[0009]在强化学习过程中,根据当前视频块的码率计算视频质量描述评分,并结合播放中断时间和视频质量切换平滑度计算外部奖励;采用预设神经网络对上一视频块和当前视频块的状态空间分别提取特征值并计算差异作为内部奖励;根据外部奖励计算外部奖励折扣累计值,根据所述外部奖励和所述内部奖励计算内外奖励折扣累计值;以最大化所述外部奖励折扣累计值为优化方向,利用所述外部奖励折扣累计值和所述内外奖励折扣累计值构建梯度反向传播并对所述预设强化学习模型和所述预设神经网络进行参数更新。
[0010]在一些实施例中,根据当前视频块的码率计算视频质量描述评分,并结合播放中断时间和视频质量切换平滑度计算外部奖励中,所述外部奖励的计算式为:
[0011][0012][0013][0014][0015]S
m
=|Q
m

Q
m
‑1|;
[0016]其中,Q
m
为视频质量描述评分,缓冲惩罚项T
m
表示第m个视频块的播放中断时间,缓冲惩罚项S
m
表示第m个视频块的视频质量切换平滑度,μ
m
和λ为缓冲惩罚项权重系数;d
m
(x
m
)表示第m个视频块的数据量;c
m
表示下载第m个视频块时的平均吞吐量;c(t)表示时变吞吐量;B
m
表示缓冲区中所有视频块的内容时长;B
m+1
表示第m个视频块完全下载后缓冲区中所有视频块的内容时长;x
m
表示传输第m个视频块所选择的码率,x
m
∈{x1,x2,...,x
q
};M表示所述视频源被分为的视频块的总量;
[0017]所述视频质量描述评分采用视频质量描述模型VMAF计算得到,计算式为:
[0018]Q
m
=VMAF(x
m
)。
[0019]在一些实施例中,所述方法还包括动态切换所述缓冲惩罚项权重系数μ
m
,包括:
[0020]定义过去k个视频块的缓冲惩罚为:
[0021][0022]过去k个视频块的切换惩罚为:
[0023][0024]定义缓冲惩罚占比为:
[0025][0026]定义权重更新因子U
m
为:
[0027][0028]其中,C为常数项;
[0029]定义视频内容离开所述缓冲区的速率为O
m
,定义缓冲区占用率的变化率为ΔB
m
,ΔB
m
的计算式为:
[0030][0031]定义所述缓冲区应具备的最小视频量表示为B
min

[0032]当B
m
<B
min
时为低缓存状态,更新所述缓冲惩罚项权重系数μ
m
如下:
[0033]μ

m
=μ
m

U
m

[0034]当ΔB
m
<0时为缓存消耗状态,更新所述缓冲惩罚项权重系数μ
m
如下:
[0035]μ

m
=μ
m
+U
m

[0036]在一些实施例中,根据外部奖励计算外部奖励折扣累计值,计算式为:
[0037][0038]其中,G
ex
(s
t
,a
t
)表示外部奖励折扣累计值,γ
i
表示第t+i个状态下的奖励折扣因子,表示第t+i个视频块对应的外部奖励,γ
l
表示第t+l个状态下的奖励折扣因子,V(s
t+l
)表示第t+l个状态对应的状态价值,V(s
t
)表示第t个状态对应的状态价值。
[0039]在一些实施例中,根据所述外部奖励和所述内部奖励计算内外奖励折扣累计值,计算式为:
[0040][0041]其中,G
e本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种码率自适应选择方法,其特征在于,该方法包括以下步骤:由视频提供方获取视频源,将所述视频源按照设定时长分割为连续的多个视频块,每个视频块按照多个码率压缩为对应的多个码率副本;在初始状态下,所述视频提供方根据视频请求方的请求发送第一个视频块的指定码率副本,并传输至缓存空间;在传输过程中,将当前视频块传输过程中的网络状态、视频内容状态和播放器状态构建为状态空间;所述网络状态包括已传输各视频块在传输过程中的平均吞吐量;所述视频内容状态包括当前视频块及其前设定数量个视频块的下载时间集合、所述当前视频块所有码率副本的文件大小集合,以及上一个视频块的感知质量参数;所述播放器状态包括缓冲区中未播放的所有视频块的时长、所述当前视频块的码率以及所述视频源中剩余未传输视频块的数量;其中,已传输各视频块在传输过程中的平均吞吐量、当前视频块及其前设定数量个视频块的下载时间集合、所述当前视频块所有码率副本的文件大小集合为状态中的向量部分,其余为状态中的标量部分;将下一个视频块能够选择的各码率副本构建为动作空间;获取预设强化学习模型,所述预设强化学习模型包括一维卷积层、第一全连接层、第二全连接层以及Softmax层;将状态中的向量部分输入所述一维卷积层得到第一特征向量,将状态中的标量部分输入至所述第一全连接层得到第二特征向量,将所述第一特征向量和所述第二特征向量结合并输入所述第二全连接层得到第三特征向量,将所述第三特征向量输入所述Softmax层并输出传输下一视频块时选择的各码率副本的概率,选择下一视频块概率最大的码率副本传输至缓存区;在强化学习过程中,根据当前视频块的码率计算视频质量描述评分,并结合播放中断时间和视频质量切换平滑度计算外部奖励;采用预设神经网络对上一视频块和当前视频块的状态空间分别提取特征值并计算差异作为内部奖励;根据外部奖励计算外部奖励折扣累计值,根据所述外部奖励和所述内部奖励计算内外奖励折扣累计值;以最大化所述外部奖励折扣累计值为优化方向,利用所述外部奖励折扣累计值和所述内外奖励折扣累计值构建梯度反向传播并对所述预设强化学习模型和所述预设神经网络进行参数更新。2.根据权利要求1所述的码率自适应选择方法,其特征在于,根据当前视频块的码率计算视频质量描述评分,并结合播放中断时间和视频质量切换平滑度计算外部奖励中,所述外部奖励的计算式为:外部奖励的计算式为:外部奖励的计算式为:外部奖励的计算式为:S
m
=|Q
m

Q
m
‑1|;
其中,Q
m
为视频质量描述评分,缓冲惩罚项T
m
表示第m个视频块的播放中断时间,缓冲惩罚项S
m
表示第m个视频块的视频质量切换平滑度,μ
m
和λ为缓冲惩罚项权重系数;d
m
(x
m
)表示第m个视频块的数据量;c
m
表示下载第m个视频块时的平均吞吐量;c(t)表示时变吞吐量;B
m
表示缓冲区中所有视频块的内容时长;B
m+1
表示第m个视频块完全下载后缓冲区中所有视频块的内容时长;x
m
表示传输第m个视频块所选择的码率,x
m
∈{x1,x2,

,x
q
};M表示所述视频源被分为的视频块的总量;所述视频质量描述评分采用视频质量描述模型VMAF计算得到,计算式为:Q
m
=VMAF(x
m
)。3.根据权利要求2所述的码率自适应选择方法,其特征在于,所述方法还包括动态切换所述缓冲惩罚项权重系数μ
m
,包括:定义过去k个视频块的缓冲惩罚为:过去k个视频块的切换惩罚为:定义缓冲惩罚占比为:定义权重更新因子U
m
为:其中,C为常数项;定义视频内容离开所述缓冲区的速率为O
m
,定义缓冲区占用率的变化率为

B
m


B
m
的计算式为:定义所述缓冲区应具备的最小视频量表示为B
min
;当B
m
<B
min
时为低缓存状态,更新所述缓冲惩罚项...

【专利技术属性】
技术研发人员:王颖冯怡宁芮兰兰李文璟张满钧
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1