视频播放、自适应码率播放模型训练方法及装置制造方法及图纸

技术编号:37144289 阅读:11 留言:0更新日期:2023-04-06 21:54
本发明专利技术实施例提供了一种视频播放、自适应码率播放模型训练方法及装置,该视频播放方法应用于服务器,包括:接收客户端的视频播放请求,视频播放请求中携带有待播放视频标识;根据待播放视频标识查询待播放视频,获得待播放视频对应的视频分片,将视频分片对应的下载信息反馈给客户端;接收客户端的针对每个待播放视频分片的播放码率请求,确定每个待播放视频分片对应的播放码率;将每个待播放视频分片对应的播放码率反馈给客户端,以使客户端按照接收到的播放码率播放待播放视频分片。采用该方案,能提升用户观看视频时的综合体验。能提升用户观看视频时的综合体验。能提升用户观看视频时的综合体验。

【技术实现步骤摘要】
视频播放、自适应码率播放模型训练方法及装置


[0001]本专利技术涉及人工智能
,特别是涉及一种视频播放、自适应码率播放模型训练方法及装置。

技术介绍

[0002]流畅播放不卡顿,是衡量播放体验最经典的指标,而高清晰度,作为指标中的新兴贵族,受到了广大人民群众的喜爱和付费支持。高清晰度意味着高码率,在用户网络状况较差时,也就更容易引起播放卡顿,从这种意义上,高清和流畅之间存在着一定的冲突。目前,多家视频平台,均已经上线了智能码率服务。智能码率服务是一种基于强化学习算法,依靠大量用户的历史播放数据,利用对单视频的完整播放过程训练出的模型。客户端在播放的时候,会把当前的播放状态、网络情况、可选码率列表等指标传递到服务器,服务端则根据已有的模型,针对用户当前视频的码率选择,做出应答。智能码率服务的目标是在清晰度和流畅度之间取得一个平衡点,以保证用户观看视频的综合体验得到提升。因此,研究智能码率服务,对提升用户的体验有着重要的意义。
[0003]然而,目前智能码率服务是通过不断重复一个视频整体播放的过程来进行训练,但不断重复视频整体播放过程随机性太大,训练几十万次都无法收敛,且目前对清晰度和码率切换频率都未有明确的量化指标,这决定了智能码率服务仍处在迭代演进的阶段,并不能根据客户端实时的状态反馈,实时给出客户端的最佳动作,无法保证在视频播放过程中清晰度和流畅度之间达到最佳平衡,不能保证用户在观看视频时得到较佳的观看体验。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种视频播放、自适应码率播放模型训练方法及装置,以实现根据客户端实时的状态反馈,实时给出客户端的最佳动作,提升用户观看视频时的综合体验。具体技术方案如下:
[0005]在本专利技术实施的第一方面,首先提供了一种视频播放方法,应用于服务器,所述方法包括:
[0006]接收客户端的视频播放请求,所述视频播放请求中携带有待播放视频标识;
[0007]根据待播放视频标识查询待播放视频,获得待播放视频对应的视频分片,将所述视频分片对应的下载信息反馈给所述客户端;
[0008]接收客户端的针对每个待播放视频分片的播放码率请求,确定每个待播放视频分片对应的播放码率;
[0009]将所述每个待播放视频分片对应的播放码率反馈给客户端,以使客户端按照接收到的播放码率播放待播放视频分片,直至待播放视频全部播放完成。
[0010]在一种可能的实现方式中,所述接收客户端的针对每个待播放视频分片的播放码率请求,确定每个待播放视频分片对应的播放码率的步骤包括:
[0011]检测待播放视频分片是否为待播放视频中前预设数量个视频分片;
[0012]若是,则从该视频分片所对应的多种播放码率中选择一个播放码率,将所选择的播放码率作为所述待播放视频分片对应的播放码率;
[0013]若否,获取待播放视频中待播放视频分片对应的单分片信息;
[0014]将待播放视频分片对应的单分片信息和当前网速值输入已训练完成的自适应码率播放模型中,获得第一码率概率向量;
[0015]基于所述第一码率概率向量,确定所述待播放视频分片对应的播放码率。
[0016]在一种可能的实现方式中,所述获取待播放视频中待播放视频分片对应的单分片信息的步骤包括:
[0017]读取待播放视频分片的分片可播时长;
[0018]从接收到的待播放视频分片的播放码率请求中,确定待播放视频分片的可选播放码率;读取每一可选播放码率的待播放视频分片所对应的分片容量,生成分片容量序列;
[0019]获取待播放视频分片每一可选播放码率的码率效用,生成码率效用序列;
[0020]从接收到的待播放视频分片的播放码率请求中,获取客户端的播放缓存时长,统计预设次数客户端上报的播放缓存时长,生成缓存序列;
[0021]从接收到的待播放视频分片的播放码率请求中,确定播放待播放视频分片前连续切换播放码率的次数,计算播放切换惩罚值;
[0022]将所述分片可播时长、分片容量序列、缓存序列,码率效用和播放切换惩罚值作为单分片信息。
[0023]在一种可能的实现方式中,所述自适应码率播放模型为基于策略的神经网络模型,所述基于所述第一码率概率向量,确定所述待播放视频分片对应的播放码率包括:
[0024]基于策略的神经网络模型输出的所述第一码率概率向量是针对待播放视频分片的播放码率及各播放码率对应的概率;
[0025]选择最大概率对应的播放码率,作为所述待播放视频分片对应的播放码率;
[0026]或者,
[0027]所述自适应码率播放模型为基于值的神经网络模型,所述基于所述第一码率概率向量,确定所述待播放视频分片对应的播放码率包括:
[0028]基于值的神经网络模型输出的所述第一码率概率向量是播放码率切换动作及各切换动作所对应的评分值;
[0029]选择最高评分对应的切换动作,按照所选择的切换动作对当前正在播放视频分片的播放码率执行切换操作,获得切换后的播放码率,将该切换后的播放码率作为待播放视频分片对应的播放码率。
[0030]在本专利技术实施的第二方面,还提供了一种自适应码率播放模型的训练方法,所述方法包括:
[0031]获取预设的神经网络模型和训练集,所述训练集包括多个样本视频;
[0032]确定样本视频中待播放视频分片对应的单分片信息;
[0033]将待播放视频分片的单分片信息和预设网速值输入到所述神经网络模型中,得到第二码率概率向量;基于所述第二码率概率向量,确定待播放视频分片对应的模型播放码率;
[0034]基于所述样本视频的视频分片信息,构建所述样本视频对应的蒙特卡洛搜索树;
[0035]根据所述蒙特卡洛搜索树,确定待播放视频分片对应的目标播放码率;
[0036]基于所述模型播放码率,计算播放至所述待播放视频分片时所对应的第一奖励值;基于所述目标播放码率,计算播放至所述待播放视频分片时所对应的第二奖励值;
[0037]播放下一待播放视频分片,返回确定样本视频中待播放视频分片对应的单分片信息的步骤,直至所述样本视频播放完毕;
[0038]累计每一待播放视频分片对应的第一奖励值得到播放所述样本视频的第一总奖励值;累计每一待播放视频分片对应的第二奖励值得到播放所述样本视频的第二总奖励值;
[0039]基于得到的第一总奖励值,第二总奖励值以及预设的损失函数,确定损失值;
[0040]根据损失值判断所述神经网络模型是否收敛;
[0041]若否,则调整所述神经网络模型中参数值,播放下一样本视频,并返回所述确定样本视频中待播放视频分片对应的单分片信息的步骤;
[0042]若是,则将当前的神经网络模型确定为自适应码率播放模型。
[0043]在一种可能的实现方式中,所述样本视频的视频分片信息包括所述样本视频中每一视频分片的可选播放码率;
[0044]所述基于所述样本视频的分片信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频播放方法,其特征在于,应用于服务器,所述方法包括:接收客户端的视频播放请求,所述视频播放请求中携带有待播放视频标识;根据待播放视频标识查询待播放视频,获得待播放视频对应的视频分片,将所述视频分片对应的下载信息反馈给所述客户端;接收客户端的针对每个待播放视频分片的播放码率请求,确定每个待播放视频分片对应的播放码率;将所述每个待播放视频分片对应的播放码率反馈给客户端,以使客户端按照接收到的播放码率播放待播放视频分片,直至待播放视频全部播放完成。2.根据权利要求1所述的方法,其特征在于,所述接收客户端的针对每个待播放视频分片的播放码率请求,确定每个待播放视频分片对应的播放码率的步骤包括:检测待播放视频分片是否为待播放视频中前预设数量个视频分片;若是,则从该视频分片所对应的多种播放码率中选择一个播放码率,将所选择的播放码率作为所述待播放视频分片对应的播放码率;若否,获取待播放视频中待播放视频分片对应的单分片信息;将待播放视频分片对应的单分片信息和当前网速值输入已训练完成的自适应码率播放模型中,获得第一码率概率向量;基于所述第一码率概率向量,确定所述待播放视频分片对应的播放码率。3.根据权利要求2所述的方法,其特征在于,所述获取待播放视频中待播放视频分片对应的单分片信息的步骤包括:读取待播放视频分片的分片可播时长;从接收到的待播放视频分片的播放码率请求中,确定待播放视频分片的可选播放码率;读取每一可选播放码率的待播放视频分片所对应的分片容量,生成分片容量序列;获取待播放视频分片每一可选播放码率的码率效用,生成码率效用序列;从接收到的待播放视频分片的播放码率请求中,获取客户端的播放缓存时长,统计预设次数客户端上报的播放缓存时长,生成缓存序列;从接收到的待播放视频分片的播放码率请求中,确定播放待播放视频分片前连续切换播放码率的次数,计算播放切换惩罚值;将所述分片可播时长、分片容量序列、缓存序列,码率效用和播放切换惩罚值作为单分片信息。4.根据权利要求2所述的方法,其特征在于,所述自适应码率播放模型为基于策略的神经网络模型,所述基于所述第一码率概率向量,确定所述待播放视频分片对应的播放码率包括:基于策略的神经网络模型输出的所述第一码率概率向量是针对待播放视频分片的播放码率及各播放码率对应的概率;选择最大概率对应的播放码率,作为所述待播放视频分片对应的播放码率;或者,所述自适应码率播放模型为基于值的神经网络模型,所述基于所述第一码率概率向量,确定所述待播放视频分片对应的播放码率包括:基于值的神经网络模型输出的所述第一码率概率向量是播放码率切换动作及各切换
动作所对应的评分值;选择最高评分对应的切换动作,按照所选择的切换动作对当前正在播放视频分片的播放码率执行切换操作,获得切换后的播放码率,将该切换后的播放码率作为待播放视频分片对应的播放码率。5.一种自适应码率播放模型的训练方法,其特征在于,所述方法包括:获取预设的神经网络模型和训练集,所述训练集包括多个样本视频;确定样本视频中待播放视频分片对应的单分片信息;将待播放视频分片的单分片信息和预设网速值输入到所述神经网络模型中,得到第二码率概率向量;基于所述第二码率概率向量,确定待播放视频分片对应的模型播放码率;基于所述样本视频的视频分片信息,构建所述样本视频对应的蒙特卡洛搜索树;根据所述蒙特卡洛搜索树,确定待播放视频分片对应的目标播放码率;基于所述模型播放码率,计算播放至所述待播放视频分片时所对应的第一奖励值;基于所述目标播放码率,计算播放至所述待播放视频分片时所对应的第二奖励值;播放下一待播放视频分片,返回确定样本视频中待播放视频分片对应的单分片信息的步骤,直至所述样本视频播放完毕;累计每一待播放视频分片对应的第一奖励值得到播放所述样本视频的第一总奖励值;累计每一待播放视频分片对应的第二奖励值得到播放所述样本视频的第二总奖励值;基于得到的第一总奖励值,第二总奖励值以及预设的损失函数,确定损失值;根据损失值判断所述神经网络模型是否收敛;若否,则调整所述神经网络模型中参数值,播放下一样本视频,并返回所述确定样本视频中待播放视频分片对应的单分片信息的步骤;若是,则将当前的神经网络模型确定为自适应码率播放模型。6.根据权利要求5所述的方法,其特征在于,所述样本视频的视频分片信...

【专利技术属性】
技术研发人员:张瀚文周霆李蹊
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1