一种视频内容分发方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:29060338 阅读:8 留言:0更新日期:2021-06-30 09:02
本发明专利技术实施例提供的一种视频内容分发方法、装置、存储介质和计算机设备的技术方案中,若监测出节点服务器的用户请求数量大于或者等于预设请求数,获取当前时刻的用户访问所述节点服务器的日志数据信息,将所述日志数据信息作为第一状态,输入预先训练好的内容分发深度强化学习模型,获取所述深度强化学习内容分发模型输出的最优内容分发数量,将所述最优内容分发数量确定为节点服务器的内容分发数量,通过将获取的日志数据输入内容分发深度强化学习模型,根据内容分发深度强化学习模型的输出结果对节点服务器的内容分发数量进行调节,能够自适应调整节点服务器的内容分发数量,实现在兼顾节点服务器性能均衡的同时,提升服务器的吐流能力。器的吐流能力。器的吐流能力。

【技术实现步骤摘要】
一种视频内容分发方法、装置、存储介质和计算机设备


[0001]本专利技术涉及内容分发
,具体地涉及一种视频内容分发方法、装置、存储介质和计算机设备。

技术介绍

[0002]视频内容分发是运营商为用户提供互联网电视服务的一种方式,运营商提前将点播内容注入到节点服务器或者对直播频道提前创建,在用户需求到达调度中心时,调度中心将用户调度到有内容的节点。然而当请求用户数突增而提前注入或创建的内容不足以满足用户需求时,会造成部分用户观看卡顿,给用户带来不好的收视体验;同时,若创建或注入的内容过多又有可能导致节点服务器容量不足,从而降低服务器的吐流能力,同样会造成用户观看卡顿。因此如何精准确定视频内容分发数量并自动调整问题,是魔百和视频领域一项重要技术也是难点。
[0003]在相关技术中,一种是对内容进行初次创建时,创建的数量依据当前该内容的热度制定,热度越高创建数量越多;另一种是通过哈希算法对服务器中内容进行实时扩散,即当节点服务器处于非正常态时会自动将该服务器上所有的内容自动扩散至节点内另一台节点服务器,分担原有节点服务器的压力。另外,两种方案均是在节点服务器容量即将溢出或达到老化时间时对该节点服务器上存储的冷点内容进行自行删除。因此,亟需一种能够跟随用户数实时变动、自动调整视频内容分发的数量的方案。

技术实现思路

[0004]有鉴于此,本专利技术提供一种视频内容分发方法、装置、存储介质和计算机设备,能够自适应调整节点服务器的内容分发数量,从而实现在兼顾节点服务器性能均衡的同时,提升服务器的吐流能力。
[0005]一方面,本专利技术实施例提供了一种视频内容分发方法,包括:
[0006]若监测出节点服务器的用户请求数量大于或者等于预设请求数,获取当前时刻的用户访问所述节点服务器的日志数据信息;
[0007]将所述日志数据信息作为第一状态,输入预先训练好的内容分发深度强化学习模型;
[0008]获取所述深度强化学习内容分发模型输出的最优内容分发数量;
[0009]将所述最优内容分发数量确定为节点服务器的内容分发数量。
[0010]可选地,在所述将所述日志数据信息作为第一状态,输入预先训练好的内容分发深度强化学习模型之前,还包括:
[0011]采集用户访问节点服务器的日志数据信息,并对所述日志数据信息进行规则化处理;
[0012]采集对节点服务器内容分发的优化经验数据,根据采集的优化经验数据生成内容分发优化规则库;
[0013]根据规则化处理后的日志数据信息以及内容分发优化规则库,建立内容分发深度强化学习模型;
[0014]利用多个规则化处理后的日志数据信息对内容分发深度强化学习模型进行训练,得到训练好的内容分发深度强化学习模型。
[0015]可选地,所述内容分发深度强化学习模型包括学习环境模型单元和价值评估网络单元;所述学习环境模型单元包括状态转移单元、动作空间单元以及奖赏函数单元;
[0016]所述根据规则化处理后的日志数据信息以及内容分发优化规则库,建立内容分发深度强化学习模型,包括:
[0017]将所述规则化处理后的日志数据信息作为第一状态输入所述学习环境模型单元,以使所述学习环境模型单元中的所述动作空间单元根据所述内容分发优化规则库生成所述第一状态对应的多个第一动作;
[0018]将多个第一动作输入所述奖赏函数单元,以使所述奖赏函数单元根据多个所述第一动作以及预先设定的奖赏函数计算输出多个所述第一动作对应的奖惩值;
[0019]将多个奖惩值输入所述价值评估网络单元,以使所述价值评估网络单元根据多个奖惩值对应的多个第一动作生成应的Q值,并选择出Q值最高的第一动作作为最优动作,输出最优动作;
[0020]将所述最优动作输入所述状态转移单元,以使所述状态转移单元在所述出第一状态下执行所述最优动作,并将执行所述最优动作后生成第二状态以及第二状态对应的奖惩值输入所述价值评估网络单元,从而完成内容分发深度强化学习模型的建立。
[0021]可选地,所述利用多个规则化处理后的日志数据信息对内容分发深度强化学习模型进行训练,得到训练好的内容分发深度强化学习模型,包括:
[0022]利用多个规则化处理后的日志数据信息执行所述将所述规则化处理后的日志数据信息作为第一状态输入所述学习环境模型单元,以使所述学习环境模型单元中的所述动作空间单元继续执行所述根据所述内容分发优化规则库生成所述第一状态对应的多个第一动作的步骤;
[0023]当检测出所述价值评估网络单元中的Q值等于最大收敛值,则得到训练好的内容分发深度强化学习模型。
[0024]可选地,所述奖赏函数单元包括奖赏函数;
[0025]在所述将多个第一动作输入所述奖赏函数单元,以使所述奖赏函数单元根据多个所述第一动作以及预先设定的奖赏函数计算输出多个所述第一动作对应的奖惩值之前,还包括:
[0026]根据内容分发的优化目标,确定出所述奖赏函数。
[0027]可选地,所述内容分发的优化目标包括:节点服务器所在区域内用户的收视体验程度以及节点服务器的吐流能力。
[0028]可选地,其特征在于,所述奖赏函数用如下公式表示:R=α*R1+(1-α)R2,R为奖罚值,R1为第一目标函数,R2为第二目标函数,α是权重因子,且满足0<α<1;
[0029]所述第一目标函数表示为:
[0030]其中,R1为节点服务器所在区域内用户的收视体验程度,W为请求用户总数,M为收视质差用户数;
[0031]所述第二目标函数表示为:
[0032]其中,f为服务器的下载速度综合评估值,q
i
是请求该服务器不同码率内容时下载速度质差用户占比,β
i
是不同码率内容的质差因子。
[0033]另一方面,本专利技术实施例提供了一种视频内容分发装置,所述装置包括:
[0034]获取模块,用于若监测出节点服务器的用户请求数量大于或者等于预设请求数,获取当前时刻的用户访问所述节点服务器的日志数据信息;
[0035]输入模块,用于将所述日志数据信息作为第一状态,输入预先训练好的内容分发深度强化学习模型;
[0036]获取模块还用于获取所述深度强化学习内容分发模型输出的最优内容分发数量;
[0037]确定模块,用于将所述最优内容分发数量确定为节点服务器的内容分发数量。
[0038]另一方面,本专利技术实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的视频内容分发方法。
[0039]另一方面,本专利技术实施例提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行上述的视频内容分发方法的步骤。
[0040]本专利技术实施例提供的技术方案中,若监测出节点服务器的用户请求数量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频内容分发方法,其特征在于,包括:若监测出节点服务器的用户请求数量大于或者等于预设请求数,获取当前时刻的用户访问所述节点服务器的日志数据信息;将所述日志数据信息作为第一状态,输入预先训练好的内容分发深度强化学习模型;获取所述深度强化学习内容分发模型输出的最优内容分发数量;将所述最优内容分发数量确定为节点服务器的内容分发数量。2.根据权利要求1所述的方法,其特征在于,在所述将所述日志数据信息作为第一状态,输入预先训练好的内容分发深度强化学习模型之前,还包括:采集用户访问节点服务器的日志数据信息,并对所述日志数据信息进行规则化处理;采集对节点服务器内容分发的优化经验数据,根据采集的优化经验数据生成内容分发优化规则库;根据规则化处理后的日志数据信息以及内容分发优化规则库,建立内容分发深度强化学习模型;利用多个规则化处理后的日志数据信息对内容分发深度强化学习模型进行训练,得到训练好的内容分发深度强化学习模型。3.根据权利要求2所述的方法,其特征在于,所述内容分发深度强化学习模型包括学习环境模型单元和价值评估网络单元;所述学习环境模型单元包括状态转移单元、动作空间单元以及奖赏函数单元;所述根据规则化处理后的日志数据信息以及内容分发优化规则库,建立内容分发深度强化学习模型,包括:将所述规则化处理后的日志数据信息作为第一状态输入所述学习环境模型单元,以使所述学习环境模型单元中的所述动作空间单元根据所述内容分发优化规则库生成所述第一状态对应的多个第一动作;将多个第一动作输入所述奖赏函数单元,以使所述奖赏函数单元根据多个所述第一动作以及预先设定的奖赏函数计算输出多个所述第一动作对应的奖惩值;将多个奖惩值输入所述价值评估网络单元,以使所述价值评估网络单元根据多个奖惩值对应的多个第一动作生成应的Q值,并选择出Q值最高的第一动作作为最优动作,输出最优动作;将所述最优动作输入所述状态转移单元,以使所述状态转移单元在所述出第一状态下执行所述最优动作,并将执行所述最优动作后生成第二状态以及第二状态对应的奖惩值输入所述价值评估网络单元,从而完成内容分发深度强化学习模型的建立。4.根据权利要求2所述的方法,其特征在于,所述利用多个规则化处理后的日志数据信息对内容分发深度强化学习模型进行训练,得到训练好的内容分发深度强化学习模型,包括:利用多个规则化处理后的日志数据信息执行所述将所述规则化处...

【专利技术属性】
技术研发人员:曲爱喜彭伟张吉成张宁
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1