一种多媒体资源的截取方法和装置制造方法及图纸

技术编号:24853649 阅读:35 留言:0更新日期:2020-07-10 19:07
本申请涉及一种多媒体资源的截取方法和装置,其中,该方法包括:从多媒体资源中获取音频资源,并将多媒体资源中的视频资源划分为多个镜头资源;从音频资源中提取目标音频点位信息,其中,目标音频点位信息用于指示属于目标音频类型的音频资源在音频资源中的位置信息;从多个镜头资源中确定目标音频点位信息中每个目标音频点位信息所落入的镜头资源,得到一个或者多个目标镜头资源;从多媒体资源中截取一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段,得到目标多媒体资源片段。本申请解决了相关技术中从多媒体数据中截取满足条件的片段的效率较低的技术问题。

【技术实现步骤摘要】
一种多媒体资源的截取方法和装置
本申请涉及计算机领域,尤其涉及一种多媒体资源的截取方法和装置。
技术介绍
视频中的精彩片段往往零散的分布在多个时间段中,用户在观看综艺节目时,很多时候需要通过评论中的留言,手动寻找这些精彩片段,这就在一定程度上影响了用户的观看体验。而且,目前视频精彩片段的选取和推送一般都是靠人工筛选的方式来完成的,这也会消耗很多的人力,影响生产效率。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请提供了一种多媒体资源的截取方法和装置,以至少解决相关技术中从多媒体数据中截取满足条件的片段的效率较低的技术问题。根据本申请实施例的一个方面,提供了一种多媒体资源的截取方法,包括:从多媒体资源中获取音频资源,并将所述多媒体资源中的视频资源划分为多个镜头资源,其中,所述多个镜头资源中的每个镜头资源包括在同一镜头下拍摄的资源;从所述音频资源中提取目标音频点位信息,其中,所述目标音频点位信息用于指示属于目标音频类型的音频资源在所述音频资源中的位置信息;从所述多个镜头资源中确定所述目标音频点位信息中每个目标音频点位信息所落入的镜头资源,得到一个或者多个目标镜头资源;从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段,得到目标多媒体资源片段。可选地,从所述音频资源中提取所述目标音频点位信息包括:以第一时长为时间间隔,第二时长为步长从音频资源中获取音频片段;检测所述音频片段的音频类型,得到检测结果;根据所述检测结果从所述音频资源中提取属于目标音频类型的所述目标音频点位信息。可选地,检测所述音频片段的音频类型,得到检测结果包括:将所述音频片段输入特征提取模型对所述音频片段进行特征提取,得到所述特征提取模型输出的所述音频片段对应的音频特征;将所述音频特征输入注意力模型对所述音频特征进行分类,得到所述注意力模型输出的所述检测结果,其中,所述检测结果用于指示所述音频特征属于所述目标音频类型的概率。可选地,根据所述检测结果从所述音频资源中提取属于目标音频类型的所述目标音频点位信息包括:根据所述音频片段中每个音频片段对应的检测结果确定所述音频资源中每个单位资源所对应的目标结果,其中,所述单位资源的时长为所述第二时长,所述目标结果用于指示所述每个单位资源属于所述目标音频类型的概率;从所述音频资源所包括的单位资源中获取目标单位资源,其中,所述目标单位资源所对应的所述目标结果高于目标概率,且所述目标单位资源所对应的目标结果高于所述目标单位资源的前一个目标单位资源对应的目标结果和所述目标单位资源的后一个目标单位资源对应的目标结果;将落入目标时间范围内的所述目标单位资源进行合并,得到所述目标音频点位信息。可选地,从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段,得到目标多媒体资源片段包括:根据镜头总时长和所述一个或者多个目标镜头资源的位置确定所述每个目标镜头资源所对应的待截取镜头资源,其中,所述待截取镜头资源包括所述每个目标镜头资源和所述每个目标镜头资源的前一个或者多个镜头资源,所述镜头总时长为所述待截取镜头资源的镜头时长,所述镜头总时长落入目标时长范围之间;从所述多媒体资源中截取所述待截取镜头资源,得到所述每个目标镜头资源所对应的多媒体资源片段。可选地,根据镜头总时长和所述一个或者多个目标镜头资源的位置确定所述每个目标镜头资源所对应的待截取镜头资源包括:确定所述每个目标镜头资源的前一个镜头资源是否为所述目标镜头资源,以及所述每个目标镜头资源与所述前一个镜头资源的时长之和是否落入所述目标时长范围之间;在所述前一个镜头资源为所述目标镜头资源且所述每个目标镜头资源与所述前一个镜头资源的时长之和落入所述目标时长范围之间的情况下,将所述每个目标镜头资源和所述前一个镜头资源确定为所述待截取镜头资源;在所述前一个镜头资源不为所述目标镜头资源,或者,所述每个目标镜头资源与所述前一个镜头资源的时长之和未落入所述目标时长范围之间的情况下,确定所述每个目标镜头资源的前前一个镜头资源是否为所述目标镜头资源,以及所述每个目标镜头资源到所述前前一个镜头资源的时长是否落入所述目标时长范围之间。可选地,在从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段,得到所述目标多媒体资源片段之后,所述方法还包括:根据所述目标多媒体资源片段中每个目标多媒体资源片段中所包括的所述目标音频点位信息的点位数量以及所述每个目标多媒体资源片段中所包括的所述目标音频点位信息的点位时长确定所述每个目标多媒体资源片段对应的精彩度信息,其中,所述精彩度信息与所述点位数量和所述点位时长成正比;按照所述精彩度信息从高到低对所述目标多媒体资源片段进行排序,得到所述目标多媒体资源片段的序列;推送所述目标多媒体资源片段的序列。根据本申请实施例的另一方面,还提供了一种多媒体资源的截取装置,包括:获取模块,用于从多媒体资源中获取音频资源,并将所述多媒体资源中的视频资源划分为多个镜头资源,其中,所述多个镜头资源中的每个镜头资源包括在同一镜头下拍摄的资源;提取模块,用于从所述音频资源中提取目标音频点位信息,其中,所述目标音频点位信息用于指示属于目标音频类型的音频资源在所述音频资源中的位置信息;第一确定模块,用于从所述多个镜头资源中确定所述目标音频点位信息中每个目标音频点位信息所落入的镜头资源,得到一个或者多个目标镜头资源;截取模块,用于从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段,得到目标多媒体资源片段。根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。根据本申请实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。在本申请实施例中,采用从多媒体资源中获取音频资源,并将多媒体资源中的视频资源划分为多个镜头资源,其中,多个镜头资源中的每个镜头资源包括在同一镜头下拍摄的资源;从音频资源中提取目标音频点位信息,其中,目标音频点位信息用于指示属于目标音频类型的音频资源在音频资源中的位置信息;从多个镜头资源中确定目标音频点位信息中每个目标音频点位信息所落入的镜头资源,得到一个或者多个目标镜头资源;从多媒体资源中截取一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段,得到目标多媒体资源片段的方式,通过捕捉目标音频点位信息定位满足要求的片段结束的位置信息,然后结合镜头信息进行追溯截取多媒体资源片段,从而得到完整的满足要求的多媒体资源片段,达到了自动从多媒体数据中截取满足条件的片段的目的,从而实现了提高从多媒体数据中截取满足条件的片段的效率的本文档来自技高网...

【技术保护点】
1.一种多媒体资源的截取方法,其特征在于,包括:/n从多媒体资源中获取音频资源,并将所述多媒体资源中的视频资源划分为多个镜头资源,其中,所述多个镜头资源中的每个镜头资源包括在同一镜头下拍摄的资源;/n从所述音频资源中提取目标音频点位信息,其中,所述目标音频点位信息用于指示属于目标音频类型的音频资源在所述音频资源中的位置信息;/n从所述多个镜头资源中确定所述目标音频点位信息中每个目标音频点位信息所落入的镜头资源,得到一个或者多个目标镜头资源;/n从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段,得到目标多媒体资源片段。/n

【技术特征摘要】
1.一种多媒体资源的截取方法,其特征在于,包括:
从多媒体资源中获取音频资源,并将所述多媒体资源中的视频资源划分为多个镜头资源,其中,所述多个镜头资源中的每个镜头资源包括在同一镜头下拍摄的资源;
从所述音频资源中提取目标音频点位信息,其中,所述目标音频点位信息用于指示属于目标音频类型的音频资源在所述音频资源中的位置信息;
从所述多个镜头资源中确定所述目标音频点位信息中每个目标音频点位信息所落入的镜头资源,得到一个或者多个目标镜头资源;
从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段,得到目标多媒体资源片段。


2.根据权利要求1所述的方法,其特征在于,从所述音频资源中提取所述目标音频点位信息包括:
以第一时长为时间间隔,第二时长为步长从音频资源中获取音频片段;
检测所述音频片段的音频类型,得到检测结果;
根据所述检测结果从所述音频资源中提取属于目标音频类型的所述目标音频点位信息。


3.根据权利要求2所述的方法,其特征在于,检测所述音频片段的音频类型,得到检测结果包括:
将所述音频片段输入特征提取模型对所述音频片段进行特征提取,得到所述特征提取模型输出的所述音频片段对应的音频特征;
将所述音频特征输入注意力模型对所述音频特征进行分类,得到所述注意力模型输出的所述检测结果,其中,所述检测结果用于指示所述音频特征属于所述目标音频类型的概率。


4.根据权利要求3所述的方法,其特征在于,根据所述检测结果从所述音频资源中提取属于目标音频类型的所述目标音频点位信息包括:
根据所述音频片段中每个音频片段对应的检测结果确定所述音频资源中每个单位资源所对应的目标结果,其中,所述单位资源的时长为所述第二时长,所述目标结果用于指示所述每个单位资源属于所述目标音频类型的概率;
从所述音频资源所包括的单位资源中获取目标单位资源,其中,所述目标单位资源所对应的所述目标结果高于目标概率,且所述目标单位资源所对应的目标结果高于所述目标单位资源的前一个目标单位资源对应的目标结果和所述目标单位资源的后一个目标单位资源对应的目标结果;
将落入目标时间范围内的所述目标单位资源进行合并,得到所述目标音频点位信息。


5.根据权利要求1所述的方法,其特征在于,从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段,得到目标多媒体资源片段包括:
根据镜头总时长和所述一个或者多个目标镜头资源的位置确定所述每个目标镜头资源所对应的待截取镜头资源,其中,所述待截取镜头资源包括所述每个目标镜头资源和所述每个目标镜头资源的前一个或者多个镜头资源,所述镜头总时长为所述待截取镜头资源的镜头时长,所述镜头总时长落入目标时长范围之间;
从所述多媒体资源中截取所述待截取镜头资...

【专利技术属性】
技术研发人员:王发发
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1