视频配音方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:23609787 阅读:24 留言:0更新日期:2020-03-28 09:21
本申请公开了一种视频配音方法、装置、计算机设备及计算机可读存储介质,属于计算机技术领域。本申请通过显示配音界面,该配音界面上显示有目标视频的多个视频帧,基于在该配音界面所采集的文本信息以及被选中的音色类型,生成与该文本信息相对应的语音数据,该语音数据的音频特征基于该音色类型确定,基于该多个视频帧中被选中的目标视频帧,将该语音数据添加至目标视频中,该语音数据的起始播放时刻与该目标视频帧的播放时刻相同,在上述视频配音过程中,可以将用户提供的文本信息按照特定的音色转换为配音,添加到视频中,无需人工配音,提高了配音效率,进而可以提高视频制作效率。

Video dubbing method, device, computer equipment and computer readable storage medium

【技术实现步骤摘要】
视频配音方法、装置、计算机设备及计算机可读存储介质
本申请涉及计算机
,特别涉及一种视频配音方法、装置、计算机设备及计算机可读存储介质。
技术介绍
视频配音是视频制作过程中的一个重要环节,在录制视频时,录制现场所收集的声音往往会存在噪音,影响视频效果,因此,在目前的视频制作过程中,通常在视频录制完成后,需要在专业录音棚或其他安静的环境中,由人工单独录制一段语音,再将语音和视频进行合成,但是这种人工配音的方式,耗费的时间成本较高,配音效率低,进而导致视频制作的周期较长,制作效率低。
技术实现思路
本申请实施例提供了一种视频配音方法、装置、计算机设备及计算机可读存储介质,可以解决相关技术中视频配音效率低的问题。该技术方案如下:一方面,提供了一种视频配音方法,该方法包括:显示配音界面,该配音界面上显示有目标视频的多个视频帧;基于在该配音界面所采集的文本信息以及被选中的音色类型,生成与该文本信息相对应的语音数据,该语音数据的音频特征基于该音色类型确定;基于该多个视频帧中被选中的目标视频帧,将该语音数据添加至该目标视频中,该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。在一种可能实现方式中,该基于在该配音界面所采集的文本信息以及音色类型,生成与该文本信息相对应的语音数据,包括:获取该音色类型所对应的音色特征;获取该文本信息对应的音素序列;基于该音素序列以及该音色特征,生成该语音数据。在一种可能实现方式中,该基于该音素序列以及该音色特征,生成该语音数据,包括:对该文本信息进行情绪识别,得到该文本信息所对应的情绪特征,该情绪特征用于指示该文本信息对应的情绪信息;基于该音素序列、该音色特征以及该情绪特征,生成语音数据,该语音数据的音频特征基于该情绪信息的变化而变化。在一种可能实现方式中,该基于该音素序列以及该音色特征,生成该语音数据,包括:获取该目标视频中背景音乐的音频特征;基于该音素序列、该音色特征以及该背景音乐的音频特征,生成该语音数据,该语音数据的音频特征基于该背景音乐音频特征的变化而变化。在一种可能实现方式中,该基于在该配音界面所采集的文本信息以及音色类型,生成与该文本信息相对应的语音数据之后,该方法还包括:接收对该语音数据的编辑指令,该编辑指令携带有第一音量信息以及第二音量信息;基于该第一音量信息调整该语音数据的播放音量,基于该第二音量信息调整该目标视频的播放音量。在一种可能实现方式中,该显示配音界面之后,该方法还包括:当接收到文本添加指令时,生成与该文本信息相对应的目标图像;将该目标图像添加至该目标视频帧的目标位置。一方面,提供了一种视频配音装置,该装置包括:显示模块,用于显示配音界面,该配音界面上显示有目标视频的多个视频帧;语音生成模块,用于基于在该配音界面所采集的文本信息以及被选中的音色类型,生成与该文本信息相对应的语音数据,该语音数据的音频特征基于该音色类型确定;语音添加模块,用于基于该多个视频帧中被选中的目标视频帧,将该语音数据添加至该目标视频中,该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。在一种可能实现方式中,该语音生成模块用于:获取该音色类型所对应的音色特征;获取该文本信息对应的音素序列;基于该音素序列以及该音色特征,生成该语音数据。在一种可能实现方式中,该语音生成模块用于:对该文本信息进行情绪识别,得到该文本信息所对应的情绪特征,该情绪特征用于指示该文本信息对应的情绪信息;基于该音素序列、该音色特征以及该情绪特征,生成语音数据,该语音数据的音频特征基于该情绪信息的变化而变化。在一种可能实现方式中,该语音生成模块用于:获取该目标视频中背景音乐的音频特征;基于该音素序列、该音色特征以及该背景音乐的音频特征,生成该语音数据,该语音数据的音频特征基于该背景音乐音频特征的变化而变化。在一种可能实现方式中,该装置还包括:接收模块,用于接收对该语音数据的编辑指令,该编辑指令携带有第一音量信息以及第二音量信息;音量调整模块,用于基于该第一音量信息调整该语音数据的播放音量,基于该第二音量信息调整该目标视频的播放音量。在一种可能实现方式中,该装置还包括:图像生成模块,用于当接收到文本添加指令时,生成与该文本信息相对应的目标图像;图像添加模块,用于将该目标图像添加至该目标视频帧的目标位置。一方面,提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码,该至少一条程序代码由该处理器加载并执行以实现该视频配音方法所执行的操作。一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现该视频配音方法所执行的操作。本申请实施例提供的技术方案,通过显示配音界面,该配音界面上显示有目标视频的多个视频帧,基于在该配音界面所采集的文本信息以及被选中的音色类型,生成与该文本信息相对应的语音数据,该语音数据的音频特征基于该音色类型确定,基于该多个视频帧中被选中的目标视频帧,将该语音数据添加至目标视频中,该语音数据的起始播放时刻与该目标视频帧的播放时刻相同。在上述视频配音过程中,可以将用户提供的文本信息按照特定的音色转换为配音,添加到视频中,无需人工配音,提高了配音效率,进而可以提高视频制作效率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种视频配音方法的实施环境示意图;图2是本申请实施例提供的一种视频配音方法的流程图;图3是本申请实施例提供的一种配音界面的具体形式示意图;图4是本申请实施例提供的一种文本输入框的具体形式示意图;图5是本申请实施例提供的一种语音数据预览信息的显示方式示意图;图6是本申请实施例提供的一种配音界面中音色类型选项的显示方式示意图;图7是本申请实施例提供的一种视频配音装置的结构示意图;图8是本申请实施例提供的一种终端的结构示意图;图9是本申请实施例提供的一种服务器的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。语音技术(SpeechTechnology)的关键技术有自动语音识别技术(AutomaticSpeechRecognition,ASR)和语音合成技术(TextToSpeech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方本文档来自技高网...

【技术保护点】
1.一种视频配音方法,其特征在于,所述方法包括:/n显示配音界面,所述配音界面上显示有目标视频的多个视频帧;/n基于在所述配音界面所采集的文本信息以及被选中的音色类型,生成与所述文本信息相对应的语音数据,所述语音数据的音频特征基于所述音色类型确定;/n基于所述多个视频帧中被选中的目标视频帧,将所述语音数据添加至所述目标视频中,所述语音数据的起始播放时刻与所述目标视频帧的播放时刻相同。/n

【技术特征摘要】
1.一种视频配音方法,其特征在于,所述方法包括:
显示配音界面,所述配音界面上显示有目标视频的多个视频帧;
基于在所述配音界面所采集的文本信息以及被选中的音色类型,生成与所述文本信息相对应的语音数据,所述语音数据的音频特征基于所述音色类型确定;
基于所述多个视频帧中被选中的目标视频帧,将所述语音数据添加至所述目标视频中,所述语音数据的起始播放时刻与所述目标视频帧的播放时刻相同。


2.根据权利要求1所述的方法,其特征在于,所述基于在所述配音界面所采集的文本信息以及被选中的音色类型,生成与所述文本信息相对应的语音数据,包括:
获取所述音色类型所对应的音色特征;
获取所述文本信息对应的音素序列;
基于所述音素序列以及所述音色特征,生成所述语音数据。


3.根据权利要求2所述的方法,其特征在于,所述基于所述音素序列以及所述音色特征,生成所述语音数据,包括:
对所述文本信息进行情绪识别,得到所述文本信息所对应的情绪特征,所述情绪特征用于指示所述文本信息对应的情绪信息;
基于所述音素序列、所述音色特征以及所述情绪特征,生成语音数据,所述语音数据的音频特征基于所述情绪信息的变化而变化。


4.根据权利要求2所述的方法,其特征在于,所述基于所述音素序列以及所述音色特征,生成所述语音数据,包括:
获取所述目标视频中背景音乐的音频特征;
基于所述音素序列、所述音色特征以及所述背景音乐的音频特征,生成所述语音数据,所述语音数据的音频特征基于所述背景音乐音频特征的变化而变化。


5.根据权利要求1所述的方法,其特征在于,所述基于在所述配音界面所采集的文本信息以及被选中的音色类型,生成与所述文本信息相对应的语音数据之后,所述方法还包括...

【专利技术属性】
技术研发人员:吴晗李文涛
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1