视频剪辑方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33354053 阅读:79 留言:0更新日期:2022-05-08 10:06
本发明专利技术涉及语音分析领域,尤其涉及一种视频剪辑方法、装置、计算机设备及存储介质。其方法包括:获取待剪辑视频;从待剪辑视频提取目标音频流和目标视频流;对目标音频流进行语音识别,得到与目标音频流对应的文字文本以及文字文本在目标音频流的出现时间;根据文字文本和出现时间生成字幕文件;将字幕文件输入内容理解模型,通过内容理解模型对字幕文件进行场景关键词和语气分析,得到场景数据;根据场景数据对目标视频流进行渲染,得到渲染视频流;并根据渲染视频流和目标音频流,生成包含场景特效的目标视频。本发明专利技术可快速得到视频的目标内容,提高语音识别的准确性和用户体验感。且考虑了关键词和语气,可使渲染更加准确的符合用户的需求。用户的需求。用户的需求。

【技术实现步骤摘要】
视频剪辑方法、装置、计算机设备及存储介质


[0001]本专利技术涉及语音分析领域,尤其涉及一种视频剪辑方法、装置、计算机设备及存储介质。

技术介绍

[0002]近年来,随着我国互联网的迅速发展,越来越多的企业和个人使用短视频、直播等视频媒体进行信息传播。通常在进行一场直播后,有些用户需要对直播视频进行剪辑,以生成目标视频。现有对直播视频的剪辑,一般是通过对直播视频进行场景识别或画面识别,将直播视频剪辑成短视频进行发布,未对原直播视频的内容做任何加工,无法满足不同用户对目标视频的需求。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种视频剪辑方法、装置、计算机设备及存储介质,以解决现有技术未对原直播视频的内容做任何加工,无法满足不同用户对目标视频的需求的问题。
[0004]一种视频剪辑方法,包括:
[0005]获取待剪辑视频;
[0006]从所述待剪辑视频提取目标音频流和目标视频流;
[0007]对所述目标音频流进行语音识别,得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间;根据所述文字文本和所述出现时间生成字幕文件;
[0008]将所述字幕文件输入内容理解模型,通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析,得到场景数据;
[0009]根据所述场景数据对所述目标视频流进行渲染,得到渲染视频流;并根据所述渲染视频流和所述目标音频流,生成包含场景特效的目标视频。
[0010]一种视频剪辑装置,包括:
[0011]待剪辑视频模块,用于获取待剪辑视频;
[0012]目标数据模块,用于从所述待剪辑视频提取目标音频流和目标视频流;
[0013]字幕文件模块,用于对所述目标音频流进行语音识别,得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间;根据所述文字文本和所述出现时间生成字幕文件;
[0014]场景数据模块,用于将所述字幕文件输入内容理解模型,通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析,得到场景数据;
[0015]目标视频模块,用于根据所述场景数据对所述目标视频流进行渲染,得到渲染视频流;并根据所述渲染视频流和所述目标音频流,生成包含场景特效的目标视频。
[0016]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理
器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述视频剪辑方法。
[0017]一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述视频剪辑方法。
[0018]上述视频剪辑方法、装置、计算机设备及存储介质,通过获取待剪辑视频;从所述待剪辑视频提取目标音频流和目标视频流;对所述目标音频流进行语音识别,得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间;根据所述文字文本和所述出现时间生成字幕文件;将所述字幕文件输入内容理解模型,通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析,得到场景数据;根据所述场景数据对所述目标视频流进行渲染,得到渲染视频流;并根据所述渲染视频流和所述目标音频流,生成包含场景特效的目标视频。本专利技术通过对从待剪辑视频中获取目标音频流和目标视频流,对待剪辑视频进行除杂处理,可快速得到视频的目标内容,同时提高语音识别的准确性和用户体验感。根据场景数据对目标视频流进行渲染,该场景数据考虑了关键词和语气,可使渲染更加准确的符合用户的需求,进一步提高用户体验感。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术一实施例中视频剪辑方法的一应用环境示意图;
[0021]图2是本专利技术一实施例中视频剪辑方法的一流程示意图;
[0022]图3是本专利技术一实施例中视频剪辑装置的一结构示意图;
[0023]图4是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]本实施例提供的视频剪辑方法,可应用在如图1的应用环境中,其中,用户端与服务端进行通信。其中,用户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0026]在一实施例中,如图2所示,提供一种视频剪辑方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
[0027]S10、获取待剪辑视频。
[0028]可理解的,待剪辑视频是指待处理的视频。通常在进行一场直播后,有些用户需要对直播视频进行剪辑,以生成目标视频。该待剪辑视频可以是用户端输入的录制的直播视
频。
[0029]S20、从所述待剪辑视频提取目标音频流和目标视频流。
[0030]可理解的,目标音频流是指对待剪辑视频中的原始音频流进行除杂处理和剪裁后得到的目标音频数据。目标视频流是指对待剪辑视频中的原始视频流进行剪裁后,得到的目标视频流。具体的,通过视频分割技术,从待剪辑视频中分割出原始音频流和原始视频流,对原始音频流进行除杂处理,得到人声音频流。进一步的,将人声音频流输入录制词识别模型,通过录制词识别模型对人声音频流中的录制词进行识别,生成人声音频流的录制数据。更进一步的,根据得到的录制数据对原始音频流和原始视频流进行裁剪,得到目标音频流和目标视频流。
[0031]S30、对所述目标音频流进行语音识别,得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间;根据所述文字文本和所述出现时间生成字幕文件。
[0032]可理解的,语音识别是指通过语音识别模型对目标音频流中的语音进行识别并将语音转换为文字的过程。文字文本是指将目标音频流中语音转换为文字得到的文本。出现时间是指与文字文本对应的语音在目标音频流时间轴中出现的时间段,将该时间段记录为文字文本在目标音频流的出现时间。字幕文件是指根据文字文本的出现时间的时序对若干文字文本进行排序得到的文本。优选的,语音识别模型可以是ASRT(Auto Speech Recognition Tool,自动语音识别工具)语音识别模型。ASRT语音识别模型采用卷积神经网络和连结性时序分类,可将音频流转化为可学习的音频特征,通过音频特征的对比,完成对任意音频流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频剪辑方法,其特征在于,包括:获取待剪辑视频;从所述待剪辑视频提取目标音频流和目标视频流;对所述目标音频流进行语音识别,得到与所述目标音频流对应的文字文本以及所述文字文本在所述目标音频流的出现时间;根据所述文字文本和所述出现时间生成字幕文件;将所述字幕文件输入内容理解模型,通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析,得到场景数据;根据所述场景数据对所述目标视频流进行渲染,得到渲染视频流;并根据所述渲染视频流和所述目标音频流,生成包含场景特效的目标视频。2.如权利要求1所述的视频剪辑方法,其特征在于,所述从所述待剪辑视频提取目标音频流和目标视频流,包括:通过视频分割技术,从所述待剪辑视频中分割出原始音频流和原始视频流;对所述原始音频流进行除杂处理,得到人声音频流;将所述人声音频流输入录制词识别模型,通过所述录制词识别模型对所述人声音频流中的录制词进行识别,生成所述人声音频流的录制数据;根据所述录制数据对所述原始音频流和所述原始视频流进行裁剪,得到所述目标音频流和所述目标视频流。3.如权利要求2所述的视频剪辑方法,其特征在于,所述对所述原始音频流进行除杂处理,得到人声音频流,包括:将所述原始音频流输入人声识别模型;通过所述人声识别模型对所述原始音频流中的进行人声识别,将识别到的人声从所述原始音频流中提取出来,得到所述人声音频流。4.如权利要求1所述的视频剪辑方法,其特征在于,所述将所述字幕文件输入内容理解模型,通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析,得到场景数据,包括:通过所述内容理解模型中的场景关键词识别算法对所述字幕文件进行场景关键词识别,得到场景内容以及与所述场景内容对应的场景时间;通过所述内容理解模型中的语气分析算法对所述场景内容进行上下文语气分析,得到所述场景内容的语气类型,并为所述场景内容生成与所述语气类型对应的语气标识;根据所述场景内容、与所述场景内容对应的场景时间和所述语气标识生成场景数据。5.如权利要求4所述的视频剪辑方法,其特征在于,所述通过所述内容理解模型中的场景关键词识别算法对所述字幕文件进行...

【专利技术属性】
技术研发人员:苏雨春晓
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1