本公开提供了一种用于音视频转码的方法、装置及存储介质。一种用于音视频转码的方法包括:以预定时间间隔获取具有高播放概率的候选音视频;针对获取的候选音视频执行特征提取以得到候选音视频的特征值;将候选音视频的特征值输入预测模型以获得针对候选音视频的特征预测值;根据候选音视频的特征预测值确定需要转码的音视频。根据本公开的方法和装置能够提高转码的时效性,可缓解由于资源和队列能力造成的转码任务的积压的状况。成的转码任务的积压的状况。成的转码任务的积压的状况。
【技术实现步骤摘要】
用于音视频转码的方法、装置及存储介质
[0001]本公开涉及互联网
,尤其涉及一种用于音视频转码的方法、装置、电子设备及存储介质。
技术介绍
[0002]在音视频领域,由于用户间网络带宽、设备性能及用户对音视频流畅度和清晰度要求的差异性,将同一个音视频通过转码转换成不同的音视频码流分发给不同的用户是通用做法。一般情况下,在音视频上传过程中会完成同步转码满足基本的播放需求,此过程耗时少速度快;同时为了给用户更极致的播放体验,需要对部分音视频进行异步转码获得更高压缩率更高清的音视视频码流,此过程耗时较久速度慢。
[0003]只对部分音视频进行异步转码的原因是因为转码资源有限,如果把所有的音视频进行转码是不现实的。另外,根据音视频播放量的分布显示存在非常明显的长尾效应:很少的音视频数贡献了90%以上的覆盖率,这样,如果对播放量很少的音视频进行转码则没有收益。因此,期望一种能够从所有被播放的音视频中高效精准地挑出适合转码的音视频目标的方法和装置,能够用更少的音视频覆盖获得更多观看量的收益。
[0004]在相关技术中,通常根据播放量和特定业务策略来确定需要转码的音视频。这样存在的问题在于:
[0005]1、时效性差:相关技术的异步转码例如根据将音视频的天级播放量超过100的音视频认为是热门音视频,在T+1进入转码流程。这意味着不管音视频的播放量量级是多少,一定会滞后1天+才可能进入转码流程。而某些音视频在上传1天内就能达到很高的播放量,这种方案会损失部分用户的播放体验。另外,即使播放量不是很高的音视频,如果根据音视频的播放时序特征,在音视频播放量达到顶峰时才进行转码,转码前的播放量远远高于转码后的播放量,此时进行转码的收益很小。
[0006]2、丢弃策略:相关技术的异步转码对进入转码队列的音视频只根据时间排序,没有优先级区别;如果进入队列的时间超过24小时则会直接丢弃,有可能会丢弃很多播放量较高的音视频而转码了一些播放量小的音视频,则转码的收益会大打折扣;
[0007]3、转码资源负载:相关技术的异步转码会在同一时间将大量的转码任务排入转码队列,容易造成任务堆积此时更容易造成丢弃;或者音视频的播放量已经进入下降趋势但转码任务还未丢弃造成资源浪费。
技术实现思路
[0008]本公开提供一种用于音视频转码的方法、装置、电子设备及存储介质,以至少解决相关技术中的确定需要转码的音视频的问题,也可不解决任何上述问题。
[0009]根据本公开的第一方面,提供了一种用于音视频转码的的方法,包括:以预定时间间隔获取具有高播放概率的候选音视频;针对获取的候选音视频执行特征提取以得到候选音视频的特征值;将候选音视频的特征值输入预测模型以获得针对候选音视频的特征预测
值;根据候选音视频的特征预测值确定需要转码的音视频。
[0010]根据本公开的第一方面,所述以预定时间间隔获取具有高播放概率的候选音视频包括:定时获取上一个时间间隔内被播放过的所有音视频的相关信息;根据获取的音视频的相关信息筛选出符合预测标准的具有高播放概率的候选音视频。
[0011]根据本公开的第一方面,所述从获取的音视频中筛选出符合预测标准的具有高播放概率的候选音视频包括:将获取的音视频中满足以下条件之一的音视频排除并将排除后的剩余音视频确定为符合预测标准的音视频,其中,所述预定标准包括:所述音视频已经进行过转码;所述音视频在上个时间间隔内的播放量少于预定阈值;所述音视频被标记为是必须要转码的音视频。
[0012]根据本公开的第一方面,所述特征值是通过对预测模型的线下训练而确定的影响音视频在预定时间内的播放量的因素。
[0013]根据本公开的第一方面,所述预定时间间隔为一分钟,所述特征值包括音视频的最近一分钟播放量、最近一小时播放量、最近一分钟播放用户数、最近一分钟播放设备数和最近一分钟每次播放的时长均值中的至少一个。
[0014]根据本公开的第一方面,所述方法还包括:在获取音视频的特征值之后,从音视频的特征值数据去除错误的特征值数据并统一特征值数据的格式。
[0015]根据本公开的第一方面,所述据候选音视频的特征预测值确定需要转码的音视频包括:将特征预测值高于阈值的音视频确定为需要转码的音视频,并根据特征预测值对需要转码的音视频进行排序。
[0016]根据本公开的第一方面,所述预测模型采用随机森林决策树算法根据不同标准被训练,所述预测模型输出的特征预测值为所述音视频从上线开始的预定时间内的播放次数超过预定次数的概率值。
[0017]根据本公开的第二方面,一种用于音视频转码的装置包括:数据获取模块,被配置为以预定时间间隔获取具有高播放概率的候选音视频;特征提取模块,被配置为针对获取的候选音视频执行特征提取以得到候选音视频的特征值;预测模块,被配置为将候选音视频的特征值输入预测模型以获得针对候选音视频的特征预测值;确定模块,被配置为根据候选音视频的特征预测值确定需要转码的音视频。
[0018]根据本公开的第二方面,所述数据获取模块包括:抓取模块,被配置为定时获取上一个时间间隔内被播放过的所有音视频的相关信息;筛选模块,被配置为根据获取的音视频的相关信息筛选出符合预测标准的具有高播放概率的候选音视频。
[0019]根据本公开的第二方面,所述特征提取模块被配置为将获取的音视频中满足以下条件之一的音视频排除并将排除后的剩余音视频确定为符合预测标准的具有高播放概率的候选音视频,其中,所述预定标准包括:所述音视频已经进行过转码;所述音视频在上个时间间隔内的播放量少于预定阈值;所述音视频被业务侧认定为是必须要转码的音视频。
[0020]根据本公开的第二方面,所述特征值是通过热度预测模型的线下训练而确定的影响音视频在预定时间内的播放量的因素。
[0021]根据本公开的第二方面,所述预定时间间隔为一分钟,所述特征值包括音视频的最近一分钟播放量、最近一小时播放量、最近一分钟播放用户数、最近一分钟播放设备数和最近一分钟每次播放的时长均值中的至少一个。
[0022]根据本公开的第二方面,所述特征值提取模块还被配置为从音视频的特征值数据去除错误的特征值数据并统一特征值数据的格式。
[0023]根据本公开的第二方面,所述确定模块被配置为:将特征预测值高于阈值的音视频确定为需要转码的音视频,并根据特征预测值对需要转码的音视频进行排序。
[0024]根据本公开的第二方面,所述预测模型采用随机森林决策树算法根据不同标准被训练,所述预测模型输出的特征预测值为所述音视频从上线开始的预定时间内的播放次数超过预定次数的概率值。
[0025]根据本公开的第三方面,提供了一种电子设备,其特征在于,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上所述的用于音视频转码的方法。
[0026]根据本公开的第四方面,提供了一种存储介质,当所述存储介质中的指令由电本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于音视频转码的方法,其特征在于,包括:以预定时间间隔获取具有高播放概率的候选音视频;针对获取的候选音视频执行特征提取以得到候选音视频的特征值;将候选音视频的特征值输入预测模型以获得针对候选音视频的特征预测值;根据候选音视频的特征预测值确定需要转码的音视频。2.如权利要求1所述的方法,其特征在于,所述以预定时间间隔获取候选音视频包括:定时获取上一个时间间隔内被播放过的所有音视频的相关信息;根据获取的音视频的相关信息筛选出符合预测标准的具有高播放概率的候选音视频。3.如权利要求2所述的方法,所述从获取的音视频中筛选出符合预测标准的具有高播放概率的候选音视频包括:将获取的音视频中满足以下条件之一的音视频排除并将排除后的剩余音视频确定为符合预测标准的候选音视频,其中,所述预定标准包括:所述音视频已经进行过转码;所述音视频在上个时间间隔内的播放量少于预定阈值;所述音视频被标记为是必须要转码的音视频。4.如权利要求1所述的方法,其特征在于,所述特征值是通过对预测模型的线下训练而确定的影响音视频在预定时间内的播放量的因素。5.如权利要求4所述的方法,其特征在于,所述预定时间间隔为一分钟,所述特征值包括音视频的最近一分钟播放量、最近一小时播放量、最近一分钟播放用户数、最近一分钟播放设备数和最近一分钟每次播放的时长均值中的至少一...
【专利技术属性】
技术研发人员:李亦涵,李甜,马运南,施隽瑶,郭君健,于冰,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。