一种生成视频摘要的方法及装置制造方法及图纸

技术编号:18501583 阅读:28 留言:0更新日期:2018-07-21 22:49
本发明专利技术公开了一种生成视频摘要的方法及装置,用以利用音频识别技术快速生成视频摘要,无需对视频内容进行智能分析,提高了生成视频摘要的效率。所述生成视频摘要的方法包括:将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;当确定多个音频帧的特征信息与目标音频的特征信息匹配时,确定多个音频帧的发生时间段;根据发生时间段,确定与发生时间段相同的、连续多个视频帧;根据上述步骤确定完音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。

A method and device for generating video summaries

The invention discloses a method and device for generating video summarization, which is used to quickly generate video summaries by using audio recognition technology, without intelligent analysis of video content, so as to improve the efficiency of generating video summaries. The method of generating a video summary includes: separating the corresponding audio frame and video frame in sequence of the frame according to the sequence of the frame. When the sound type of the current audio frame is the same as the sound type of the target audio, the characteristics of the audio frames including the current audio frame, the preset time length, and the continuous multiple audio frames are determined. Information; when the feature information of the multiple audio frames is determined to match the feature information of the target audio, the time period for the occurrence of multiple audio frames is determined; according to the time period, multiple video frames are determined the same as the occurrence time segment; according to the above steps, a plurality of successive multiple ones included in the finished audio and video text are determined. After the video frame, a plurality of consecutive multiple video frames are determined to generate video summaries.

【技术实现步骤摘要】
一种生成视频摘要的方法及装置
本专利技术涉及视频快速检索领域,尤其涉及一种生成视频摘要的方法及装置。
技术介绍
现有的技术方案中,生成视频摘要的方法基本都是利用智能图像分析算法,从视频中提取物体目标信息,再根据目标出现时间等信息融合在一起生成视频摘要的方法,最后用于存储和视频播放。目前的产品视频摘要的技术方案都要借助智能视频分析技术,有如下缺点:1)视频分析计算量大,难度高;2)视频数据量大,生成摘要速度慢;3)无法感知音频信息。
技术实现思路
本专利技术提供一种生成视频摘要的方法及装置,用以利用音频识别技术快速生成视频摘要,无需对视频内容进行智能分析,提高了生成视频摘要的效率。本专利技术实施例提供了一种生成视频摘要的方法,该方法包括:将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。在一种可能的实施方式中,本专利技术实施例提供的上述方法中,将确定的多个所述连续多个视频帧生成视频摘要,还包括:将确定的多个所述连续多个视频帧和所述发生时间段所对应的多个音频帧进行融合,生成视频摘要。在一种可能的实施方式中,本专利技术实施例提供的上述方法中,所述目标音频的特征信息可以通过如下方式确定:获取包括目标声音的目标音频,根据语音识别算法,确定目标音频中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息;或者,建立包括目标声音的模型数据,根据语音识别算法,确定所述模型数据中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息。在一种可能的实施方式中,本专利技术实施例提供的上述方法中,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息,包括:根据语音识别方法,确定当前音频帧中包括的声音的内容,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧;根据语音识别方法,确定所述多个音频帧的特征信息。在一种可能的实施方式中,本专利技术实施例提供的上述方法中,确定所述多个音频帧的特征信息与目标音频的特征信息匹配,包括:当所述多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时,确定所述多个音频帧的特征信息与目标音频的特征信息匹配。在一种可能的实施方式中,本专利技术实施例提供的上述方法中,根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:将所述连续多个视频帧进行存储;当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述连续多个视频帧进行融合并生成视频摘要。在一种可能的实施方式中,本专利技术实施例提供的上述方法中,根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:将所述发生时间段进行存储;当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述发生时间段所对应的多个视频帧生成视频摘要。在一种可能的实施方式中,本专利技术实施例提供的上述方法中,确定所述多个音频帧的发生时间段时,还包括:确定所述多个音频帧所对应的通道来源或音频分类;生成视频摘要之后,该方法还包括:将所述视频摘要按照所述通道来源或音频分类进行保存。在一种可能的实施方式中,本专利技术实施例提供的上述方法中,将音视频文件按照帧的顺序依次分离出对应的音频帧之后,且确定当前音频帧的声音类型与目标音频的声音类型相同之前,该方法还包括:将所述音频帧进行解码处理。相应地,本专利技术实施例还提供了一种生成视频摘要的装置,该装置包括:分离模块,用于将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;特征信息确定模块,用于当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;发生时间段确定模块,用于当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;视频帧确定模块,用于根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;生成视频摘要模块,用于确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。在一种可能的实施方式中,本专利技术实施例提供的上述装置中,生成视频摘要模块将确定的多个所述连续多个视频帧生成视频摘要,还用于:将确定的多个所述连续多个视频帧和所述发生时间段所对应的多个音频帧进行融合,生成视频摘要。在一种可能的实施方式中,本专利技术实施例提供的上述装置中,所述目标音频的特征信息可以通过如下方式确定:获取包括目标声音的目标音频,根据语音识别算法,确定目标音频中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息;或者,建立包括目标声音的模型数据,根据语音识别算法,确定所述模型数据中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息。在一种可能的实施方式中,本专利技术实施例提供的上述装置中,所述特征信息确定模块具体用于:根据语音识别方法,确定当前音频帧中包括的声音的内容,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧;根据语音识别方法,确定所述多个音频帧的特征信息。在一种可能的实施方式中,本专利技术实施例提供的上述装置中,所述发生时间段确定模块确定所述多个音频帧的特征信息与目标音频的特征信息匹配,具体用于:当所述多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时,确定所述多个音频帧的特征信息与目标音频的特征信息匹配。在一种可能的实施方式中,本专利技术实施例提供的上述装置中,所述生成视频摘要模块,还用于:将所述连续多个视频帧进行存储;当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述连续多个视频帧进行融合并生成视频摘要。在一种可能的实施方式中,本专利技术实施例提供的上述装置中,所述生成视频摘要模块,还用于:将所述发生时间段进行存储;当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述发生时间段所对应的多个视频帧生成视频摘要。在一种可能的实施方式中,本专利技术实施例提供的上述装置中,所述发生时间段确定模块确定所述多个音频帧的发生时间段时,还用于:确定所述多个音频帧所对应的通道来源或音频分类;所述生成视频摘要模块,还用于:生成视频摘要之后,将所述视频摘要按照所述通道来源或音频分类进行保存。在一种可能的实施方式中,本专利技术实施例提供的上述装置中,所述装置还包括:解码模块,用于将音视频文件按照帧的顺序依次分离出对应的音频帧之后,且确定当前音频帧的声音类型与目标音频的声音类型相同之前,将所述音频帧进行解码本文档来自技高网...

【技术保护点】
1.一种生成视频摘要的方法,其特征在于,该方法包括:将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。

【技术特征摘要】
1.一种生成视频摘要的方法,其特征在于,该方法包括:将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。2.根据权利要求1所述的方法,其特征在于,将确定的多个所述连续多个视频帧生成视频摘要,还包括:将确定的多个所述连续多个视频帧和所述发生时间段所对应的多个音频帧进行融合,生成视频摘要。3.根据权利要求1所述的方法,其特征在于,所述目标音频的特征信息可以通过如下方式确定:获取包括目标声音的目标音频,根据语音识别算法,确定目标音频中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息;或者,建立包括目标声音的模型数据,根据语音识别算法,确定所述模型数据中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息。4.根据权利要求1或3所述的方法,其特征在于,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息,包括:根据语音识别方法,确定当前音频帧中包括的声音的内容,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧;根据语音识别方法,确定所述多个音频帧的特征信息。5.根据权利要求1或3所述的方法,其特征在于,确定所述多个音频帧的特征信息与目标音频的特征信息匹配,包括:当所述多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时,确定所述多个音频帧的特征信息与目标音频的特征信息匹配。6.根据权利要求1所述的方法,其特征在于,根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:将所述连续多个视频帧进行存储;当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述连续多个视频帧进行融合并生成视频摘要。7.根据权利要求1所述的方法,其特征在于,根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:将所述发生时间段进行存储;当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述发生时间段所对应的多个视频帧生成视频摘要。8.根据权利要求1所述的方法,其特征在于,确定所述多个音频帧的发生时间段时,还包括:确定所述多个音频帧所对应的通道来源或音频分类;生成视频摘要之后,该方法还包括:将所述视频摘要按照所述通道来源或音频分类进行保存。9.根据权利要求1所述的方法,其特征在于,将音视频文件按照帧的顺序依次分离出对应的音频帧之后,且确定当前音频帧的声音类型与目标音频的声音类型相同之前,该方法还包括:将所述音频帧进行...

【专利技术属性】
技术研发人员:李威
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1