一种基于AI语音识别的视频碎剪方法与设备技术

技术编号:37199685 阅读:23 留言:0更新日期:2023-04-20 22:56
本发明专利技术公开了一种基于AI语音识别的视频碎剪方法与设备。获取原始视频数据;对原始视频数据进行语音识别,以获得原始字幕语音的文字稿;呈现原始字幕语音的文字稿,并供用户对原始字幕语音的文字稿进行编辑,以产生新的字幕语音的文字稿;根据新的字幕语音的文字稿对原始视频数据进行反向剪辑,生成最终的视频数据。本发明专利技术可快速的完成视频碎剪工作,节省操作时间;碎剪工作涵盖了删除、增加字段和调整语句顺序、调整后的优化处理,可满足用户的使用需求。用需求。用需求。

【技术实现步骤摘要】
一种基于AI语音识别的视频碎剪方法与设备


[0001]本专利技术涉及视频碎剪
,具体涉及一种基于AI语音识别的视频碎剪方法与设备。

技术介绍

[0002]现在语音识别在视频中已经比较广泛应用,主要是可以识别语音后转成文字作为“字幕”用途。而在通常的剪辑工作中,“碎剪”是一个很重要的剪辑工作,把一段讲话,减去不需要的部分,像是不合适的口头禅(嗯,啊。额等等),冷场的状况(停留太长不发声),提炼金句过程中将不需要的语言剪掉,这个过程称之为“碎剪”。
[0003]现有技术中的碎剪技术需要一字一句的听、剪。常常必须逐帧的图片去审核、剪辑,非常费时间。现有技术中的语音翻译文字则用于整片翻译,自动产生字幕。

技术实现思路

[0004]本专利技术的目的是针对现有技术存在的不足,提供一种基于AI语音识别的视频碎剪方法与设备。
[0005]为实现上述目的,在第一方面,本专利技术提供了一种基于AI语音识别的视频碎剪方法,包括:获取原始视频数据;对所述原始视频数据进行语音识别,以获得原始字幕语音的文字稿;呈现所述原始字幕语音的文字稿,并供用户对所述原始字幕语音的文字稿进行编辑,以产生新的字幕语音的文字稿;根据新的字幕语音的文字稿对原始视频数据进行反向剪辑,生成最终的视频数据。
[0006]进一步的,所述编辑包括删除原始字幕语音的文字稿中的部分文字,所述反向剪辑包括将原始视频数据中未与新的字幕语音的文字稿对应的视频片段剪除后再拼接。
[0007]进一步的,所述编辑包括向原始字幕语音的文字稿中增加文字,在反向剪辑前,先基于原始视频中的语音数据和AI语音模仿技术生成对应的语音信号,或由原始视频数据中的人物录音获得对应的语音信号,并将该语音信号与新的字幕语音文字稿对应的语音信号拼接成新的语音信号,所述反向剪辑包括根据新的语音信号长度对所述原始视频数据或相同长度的外部视频片段数据去除音频后通过插帧方式拼接对应长度的视频片段,最后再将新的语音信号与延长后的视频数据合成最终的视频数据。
[0008]进一步的,所述编辑还包括置换若干句话的位置,所述反向剪辑包括将原始视频数据的对应部分的位置进行置换后再拼接。
[0009]进一步的,还包括:对拼接处通过设置转场或AI处理进行优化。
[0010]在第二方面,本专利技术提供了一种基于AI语音识别的视频碎剪设备,包括:获取模块,用以获取原始视频数据;
识别模块,用以对所述原始视频数据进行语音识别,以获得原始字幕语音的文字稿;人机交互模块,呈现所述原始字幕语音的文字稿,并供用户对所述原始字幕语音的文字稿进行编辑,以产生新的字幕语音的文字稿;处理模块,用以根据新的字幕语音的文字稿对原始视频数据进行反向剪辑,生成最终的视频数据。
[0011]进一步的,所述编辑包括删除原始字幕语音的文字稿中的部分文字,所述反向剪辑包括将原始视频数据中未与新的字幕语音的文字稿对应的视频片段剪除后再拼接。
[0012]进一步的,所述编辑包括向原始字幕语音的文字稿中增加文字,在反向剪辑前,先基于原始视频中的语音数据和AI语音模仿技术生成对应的语音信号,或由原始视频数据中的人物录音获得对应的语音信号,并将该语音信号与新的字幕语音文字稿对应的语音信号拼接成新的语音信号,所述反向剪辑包括根据新的语音信号长度对所述原始视频数据通过插帧方式拼接对应长度的视频片段,最后再将新的语音信号与延长后的视频数据合成最终的视频数据。
[0013]进一步的,所述编辑还包括置换若干句话的位置,所述反向剪辑包括将原始视频数据的对应部分的位置进行置换后再拼接。
[0014]进一步的,所述处理模块还用以对拼接处通过设置转场或AI处理进行优化。
[0015]有益效果:本专利技术通过对原始视频数据进行语音识别获得原始字幕语音的文字稿,并呈现供用户对原始字幕语音的文字稿进行编辑,以产生新的字幕语音的文字稿,再根据新的字幕语音的文字稿对原始视频数据进行反向剪辑,生成最终的视频数据,可快速的完成视频碎剪工作,节省操作时间;碎剪工作涵盖了删除、增加字段和调整语句顺序、调整后的优化处理,可满足用户的使用需求。
附图说明
[0016]图1是本专利技术实施例的基于AI语音识别的视频碎剪方法的流程示意图;图2是是本专利技术实施例的基于AI语音识别的视频碎剪设备的示意图。
实施方式
[0017]下面结合附图和具体实施例,进一步阐明本专利技术,本实施例在以本专利技术技术方案为前提下进行实施,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。
[0018]如图1所示,本专利技术实施例提供了一种基于AI语音识别的视频碎剪方法,包括:获取原始视频数据。该原始视频数据是指预先录制好的一段演讲的视频,同时该视频中的演讲内容会有一定的缺陷,如不合适的口头禅(嗯,啊。额等等)或冷场的状况(停留太长不发声)等。
[0019]对原始视频数据进行语音识别,以获得原始字幕语音的文字稿。对视频数据进行语音识别为现有技术,如识别语音后转成文字作为字幕等均用到了该技术,在此不再对其原理赘述。
[0020]呈现所述原始字幕语音的文字稿,并供用户对所述原始字幕语音的文字稿进行编辑,以产生新的字幕语音的文字稿。
[0021]根据新的字幕语音的文字稿对原始视频数据进行反向剪辑,生成最终的视频数据。
[0022]具体的,上述编辑包括删除原始字幕语音的文字稿中的部分文字,反向剪辑包括将原始视频数据中未与新的字幕语音的文字稿对应的视频片段剪除后再拼接。例如,根据语音识别出的原始字幕语音的文字稿为“这是一个创新的时代,额,我们必须要配合这个,额,时代的去思,作为一个科技开发者,必须要看清用户的需求,嗯,还要做以下四件事情来观察市场的反映”。编辑后产生的新的字幕语音的文字稿为“这是一个创新的时代,我们必须要配合时代的趋势,作为一个科技开发者,必须要看清用户的需求,还要做以下四件事情来观察市场的反应”。最后再将原始视频数据中未与新的字幕语音的文字稿对应的视频片段剪除后再拼接,即可获得最终的视频数据。另外,在对原始视频数据进行语音识别时,可以记录下语音出现时的时间,精确到帧(例如1/30秒,1/60秒,视“帧率”)作为剪辑修改的依据。
[0023]上述编辑还包括向原始字幕语音的文字稿中增加文字,在反向剪辑前,先基于原始视频中的语音数据和AI语音模仿技术生成对应的语音信号,或由原始视频数据中的人物录音获得对应的语音信号,并将该语音信号与新的字幕语音文字稿对应的语音信号拼接成新的语音信号,反向剪辑包括根据新的语音信号长度对原始视频数据通过插帧方式拼接对应长度的视频片段,最后再将新的语音信号与延长后的视频数据合成最终的视频数据。另外,对于插帧拼接的视频片段中的人物嘴唇可通过AI处理,以改变嘴型搭配新的文字稿,也可以根据新的语音信号搭配相同长度的外部无音频的视频片段数据合成最终的视频数据, 例如#**目录/视频名称#**default(假设可以被设置的插入视频指令=“#**”就是把保存在“目录“下面的”视频名称”导本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于AI语音识别的视频碎剪方法,其特征在于,包括:获取原始视频数据;对所述原始视频数据进行语音识别,以获得原始字幕语音的文字稿;呈现所述原始字幕语音的文字稿,并供用户对所述原始字幕语音的文字稿进行编辑,以产生新的字幕语音的文字稿;根据新的字幕语音的文字稿对原始视频数据进行反向剪辑,生成最终的视频数据。2.根据权利要求1所述的一种基于AI语音识别的视频碎剪方法,其特征在于,所述编辑包括删除原始字幕语音的文字稿中的部分文字,所述反向剪辑包括将原始视频数据中未与新的字幕语音的文字稿对应的视频片段剪除后再拼接。3.根据权利要求1所述的一种基于AI语音识别的视频碎剪方法,其特征在于,所述编辑包括向原始字幕语音的文字稿中增加文字,在反向剪辑前,先基于原始视频中的语音数据和AI语音模仿技术生成对应的语音信号,或由原始视频数据中的人物录音获得对应的语音信号,并将该语音信号与新的字幕语音文字稿对应的语音信号拼接成新的语音信号,所述反向剪辑包括根据新的语音信号长度对所述原始视频数据或相同长度的外部视频片段数据通过插帧方式拼接对应长度的视频片段,最后再将新的语音信号与延长后的视频数据合成最终的视频数据。4.根据权利要求1所述的一种基于AI语音识别的视频碎剪方法,其特征在于,所述编辑还包括置换若干句话的位置,所述反向剪辑包括将原始视频数据的对应部分的位置进行置换后再拼接。5.根据权利要求2或3或4所述的一种基于AI语音识别的视频碎剪方法,其特征在于,还包括:对拼接处通过设置转场或AI处理进行优化。6.一种基于AI语音识别的视频碎剪...

【专利技术属性】
技术研发人员:张文和
申请(专利权)人:南京爱照飞打影像科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1