音视频剪辑方法和装置制造方法及图纸

技术编号:31842893 阅读:23 留言:0更新日期:2022-01-12 13:23
本公开提供了音视频剪辑方法和装置,涉及多媒体技术领域,尤其涉及剪辑技术领域。具体实现方案为:获取原始音视频片段和对应的脚本句子集合;从原始音视频片段中语音识别出字幕句子集合;对于脚本句子集合中的每个脚本句子,从字幕句子集合召回与该脚本句子相似度高于第一阈值的目标句子;使用每个目标句子的字幕识别的文本对齐时间对原始音视频片段按顺序进行剪辑拼接,生成中间音视频片段;根据每个目标句子的字幕识别的文本对齐时间将每个目标句子替换为对应的脚本句子,并按照对齐时间把脚本句子与中间音视频片段进行组合,得到剪辑音视频片段。该实施方式实现了快速、准确地音视频剪辑。地音视频剪辑。地音视频剪辑。

【技术实现步骤摘要】
音视频剪辑方法和装置


[0001]本公开涉及多媒体
,尤其涉及剪辑
,具体为一种音视频剪辑方法和装置。

技术介绍

[0002]随着用户需求与媒体技术的发展,视频的数量也呈指数级的爆炸增长,对视频进行剪辑也成为人们关注的视频处理方式。视频剪辑技术是一种将待剪辑对象通过剪辑的方式合成一段剪辑视频的视频处理方式,常应用于短视频制作、视频集锦等视频剪辑场景。
[0003]在常见的视频剪辑过程中,视频录制者通常会撰写视频脚本(即视频内容逐字稿),用于视频录制中的提词录制。录制过程中,录制者常会出现卡顿、念错字、念错句、念口癖词、重复念稿等行为,这些行为通常会在后期制作中通过人工删除。

技术实现思路

[0004]本公开提供了一种音视频剪辑方法、装置、设备、存储介质以及计算机程序产品。
[0005]根据本公开的第一方面,提供了一种音视频剪辑方法,包括:获取原始音视频片段和对应的脚本句子集合;从所述原始音视频片段中语音识别出字幕句子集合;对于所述脚本句子集合中的每个脚本句子,从所述字幕句子集合召回与该脚本句子相似度高于第一阈值的目标句子;使用每个目标句子的字幕识别的文本对齐时间对所述原始音视频片段按顺序进行剪辑拼接,生成中间音视频片段;根据每个目标句子的字幕识别的文本对齐时间将每个目标句子替换为对应的脚本句子,并按照所述对齐时间把脚本句子与中间音视频片段进行组合,得到剪辑音视频片段。
[0006]根据本公开的第二方面,提供了一种音视频剪辑装置,包括:获取单元,被配置成获取原始音视频片段和对应的脚本句子集合;识别单元,被配置成从所述原始音视频片段中语音识别出字幕句子集合;召回单元,被配置成对于所述脚本句子集合中的每个脚本句子,从所述字幕句子集合召回与该脚本句子相似度高于第一阈值的目标句子;拼接单元,被配置成使用每个目标句子的字幕识别的文本对齐时间对所述原始音视频片段按顺序进行剪辑拼接,生成中间音视频片段;替换单元,被配置成根据每个目标句子的字幕识别的文本对齐时间将每个目标句子替换为对应的脚本句子,并按照所述对齐时间把脚本句子与中间音视频片段进行组合,得到剪辑音视频片段。
[0007]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
[0008]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
[0009]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算
机程序在被处理器执行时实现第一方面所述的方法。
[0010]本公开的实施例提供的音视频剪辑方法和装置,在提供脚本和脚本对应拍摄的音视频原片的情况下,根据音视频的语音字幕识别结果,使用召回策略将字幕结果与脚本逐句对应并完成剪辑、并使用脚本生成精准字幕。无需人工筛选,从而提高了剪辑效率。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
[0014]图2是根据本公开的音视频剪辑方法的一个实施例的流程图;
[0015]图3是根据本公开的音视频剪辑方法的一个应用场景的示意图;
[0016]图4是根据本公开的音视频剪辑方法的又一个实施例的流程图;
[0017]图5是根据本公开的音视频剪辑装置的一个实施例的结构示意图;
[0018]图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0019]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0020]图1示出了可以应用本公开的音视频剪辑方法或音视频剪辑装置的实施例的示例性系统架构100。
[0021]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0022]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如相机类应用、音视频剪辑类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
[0023]终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持多媒体播放的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0024]服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的
音视频提供支持的后台剪辑服务器。后台剪辑服务器可以对接收到的剪辑请求等数据进行分析等处理,并将处理结果(例如剪辑后的音视频)反馈给终端设备。
[0025]需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
[0026]需要说明的是,本公开的实施例所提供的音视频剪辑方法一般由服务器105执行,相应地,音视频剪辑装置一般设置于服务器105中。...

【技术保护点】

【技术特征摘要】
1.一种音视频剪辑方法,包括:获取原始音视频片段和对应的脚本句子集合;从所述原始音视频片段中语音识别出字幕句子集合;对于所述脚本句子集合中的每个脚本句子,从所述字幕句子集合召回与该脚本句子相似度高于第一阈值的目标句子;使用每个目标句子的字幕识别的文本对齐时间对所述原始音视频片段按顺序进行剪辑拼接,生成中间音视频片段;根据每个目标句子的字幕识别的文本对齐时间将每个目标句子替换为对应的脚本句子,并按照所述对齐时间把脚本句子与中间音视频片段进行组合,得到剪辑音视频片段。2.根据权利要求1所述的方法,其中,所述方法还包括:对于所述脚本句子集合中的每个脚本句子,从所述字幕句子集合中召回与该脚本句子相似度高于第二阈值的候选句子,所述第二阈值低于所述第一阈值,并将除目标句子之外的候选句子根据字幕识别的文本对齐时间进行剪辑,形成候补音视频片段供用户选择。3.根据权利要求1所述的方法,其中,所述方法还包括:根据所述字幕句子集合中各字幕句子的时间间隔从所述剪辑音视频片段中检测出卡顿片段;从所述剪辑音视频片段中删除所述卡顿片段。4.根据权利要求1所述的方法,其中,所述方法还包括:对于所述脚本句子集合中的每个脚本句子,若无法从所述字幕句子集合中召回与该脚本句子相似度高于第一阈值的目标句子,则输出该脚本句子被遗漏的提示信息。5.根据权利要求4所述的方法,其中,所述方法还包括:响应于接收到用户提交的被遗漏的音视频片段,将所述被遗漏的音视频片段插入到所述剪辑音视频片段中。6.根据权利要求1

5中任一项所述的方法,其中,所述从所述字幕句子集合召回与该脚本句子相似度高于第一阈值的目标句子包括:计算该脚本句子与所述字幕句子集合中各字幕句子的编辑距离;将编辑距离小于预设值的字幕句子确定为目标句子。7.一种音视频剪辑装置,包括:获取单元,被配置成获取原始音视频片段和对应的脚本句子集合;识别单元,被配置成从所述原始音视频片段中语音识别出字幕句子集合;召回单元,被配置成对于所述脚本句子集合中的每个脚本句子,从所述字幕句子集合召回与该脚本句子相似度高于第一阈值的目标句子;拼接单元,被配置成使用每个目标句子的字幕识别的文本对齐时间对所述原始音视频片段按顺序进行剪...

【专利技术属性】
技术研发人员:曹溪语吴悦奉伟郑程单文睿陈进生
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1