基于语音合成的视频配音方法、装置、计算机设备及介质制造方法及图纸

技术编号:23861298 阅读:26 留言:0更新日期:2020-04-18 14:00
本申请公开了一种基于语音合成的视频配音方法、装置、计算机设备及存储介质,属于视频技术以及人工智能技术领域。本申请实施例提供的技术方案,通过获取不同配音的语音特征信息,并基于这些语音特征信息来进行语音合成,可以模拟不同配音的音色以及说话风格,从而可以按照自己设定的文字信息来生成具有指定配音的音色以及说话风格的第一配音音频,从而可以将其与视频进行合并,以达到基于用户个性化需求的视频配音,大大提高了视频制作的效率和质量。

Video dubbing method, device, computer equipment and media based on speech synthesis

【技术实现步骤摘要】
基于语音合成的视频配音方法、装置、计算机设备及介质
本申请涉及视频技术以及人工智能
,特别涉及一种基于语音合成的视频配音方法、装置、计算机设备及存储介质。
技术介绍
随着视频技术的发展,越来越多的用户开始利用视频剪辑等方式来制作视频片段,以表达自己的创意,而在制作视频时,通常还可以添加一些配音,从而丰富视频的视听效果。目前的视频配音方法通常是人工进行,例如自行配音或者聘请配音演员来进行配音,为了降低成本并得到更好的视听效果,很多用户还会从一些视频中截取其音频片段,将该音频片段合成至自制视频中,也能达到一些娱乐的效果。然而,这种视频配音方法,其所能够使用的音频内容通常是一些视频中的原有内容,无法满足自制视频的一些个性化需求,且由于上述合成过程对视频作者的技能要求较高,因此,导致视频制作的效率低下,质量也不能有所保证。
技术实现思路
本申请实施例提供了一种基于语音合成的视频配音的视频配音方法、装置、计算机设备及存储介质,可以满足用户的个性化需求,提高视频制作的效率,保证视频质量。所述技术方案如下:一方面,提供了一种基于语音合成的视频配音方法,所述方法包括:接收配音选择指令,所述配音选择指令携带目标声音的标识信息;根据所述目标声音的标识信息,获取所述目标声音的语音特征信息,所述语音特征信息包括所述目标声音的音色信息以及说话风格信息;根据目标视频的文字信息以及所述目标声音的语音特征信息,进行语音合成,得到所述文字信息对应的第一配音音频;将所述第一配音音频和所述目标视频合并,得到配音后的目标视频。一方面,提供了一种基于语音合成的视频配音装置,所述装置包括:接收模块,用于接收配音选择指令,所述配音选择指令携带目标声音的标识信息;特征获取模块,用于根据所述目标声音的标识信息,获取对所述目标声音的视频进行学习得到的语音特征信息,所述语音特征信息包括所述目标声音的音色信息以及说话风格信息;语音合成模块,用于根据目标视频的文字信息以及所述目标声音的语音特征信息,进行语音合成,得到所述目标视频对应的第一配音音频。在一种可能实现方式中,语音合成模块包括:音频获取单元,用于根据所述目标视频的文字信息,获取所述文字信息对应的多个音频;调整单元,用于采用所述目标声音的语音特征信息对所述文字信息对应的多个音频进行调整,得到所述目标视频对应的第一配音音频。在一种可能实现方式中,调整单元,用于按照所述目标声音的音色信息,将所述文字信息对应的多个音频的音色调整至与所述目标声音的音色信息相匹配;按照所述目标声音的说话风格信息,将调整了音色的所述多个音频的播放速度和音调中至少一项调整至与所述目标声音的说话风格信息相匹配,得到所述目标视频对应的第一配音音频。在一种可能实现方式中,该装置还包括:情绪调整模块,用于根据接收到的情绪调整指令,获取目标情绪信息;基于所述目标情绪信息,对所述多个音频的播放速度和音调中至少一项进行调整。在一种可能实现方式中,该装置还包括:音量调整模块,用于根据接收到的音量调整指令,获取目标音量信息;基于所述目标音量信息,对所述多个音频的播放音量进行调整。在一种可能实现方式中,该装置还包括:发送模块,用于将所述目标视频和所述目标视频的第一配音音频发送至多媒体服务器;所述接收模块还用于接收所述多媒体服务器基于所述目标视频的视频场景对所述目标视频的第一配音音频返回的第二配音音频。在一种可能实现方式中,特征获取模块用于执行下述任一步骤:根据所述目标声音的标识信息,从本地存储的语音特征信息中获取所述标识信息对应的语音特征信息,所述标识信息对应的语音特征信息通过对所述目标声音的视频进行学习得到;向多媒体服务器发送获取请求,所述获取请求携带所述目标声音的标识信息;接收所述多媒体服务器返回的所述对所述目标声音的多个视频进行学习得到的语音特征信息。一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述指令由所述一个或多个处理器加载并执行以实现所述基于语音合成的视频配音方法所执行的操作。一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现所述基于语音合成的视频配音方法所执行的操作。本申请实施例提供的技术方案,通过获取不同配音的语音特征信息,并基于这些语音特征信息来进行语音合成,可以模拟不同配音的音色以及说话风格,从而可以按照自己设定的文字信息来生成具有指定配音的音色以及说话风格的第一配音音频,从而可以将其与视频进行合并,以达到基于用户个性化需求的视频配音,大大提高了视频制作的效率和质量。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种基于语音合成的视频配音方法的实施环境的示意图;图2是本申请实施例提供的一种基于语音合成的视频配音方法的流程图;图3是本申请实施例提供的一种语音特征信息的提取和存储的流程示意图;图4本申请实施例提供的一种视频配音界面的显示示意图;图5本申请实施例提供的一种对配音的调整过程的流程图;图6本申请实施例提供的一种视频配音流程的示意图;图7是本申请实施例提供的一种基于语音合成的视频配音装置结构示意图;图8是本申请实施例提供的一种计算机设备的结构示意图;图9是本申请实施例提供的一种终端的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研本文档来自技高网...

【技术保护点】
1.一种基于语音合成的视频配音方法,其特征在于,所述方法包括:/n接收配音选择指令,所述配音选择指令携带目标声音的标识信息;/n根据所述目标声音的标识信息,获取对所述目标声音的视频进行学习得到的语音特征信息,所述语音特征信息包括所述目标声音的音色信息以及说话风格信息;/n根据目标视频的文字信息以及所述目标声音的语音特征信息,进行语音合成,得到所述目标视频对应的第一配音音频。/n

【技术特征摘要】
1.一种基于语音合成的视频配音方法,其特征在于,所述方法包括:
接收配音选择指令,所述配音选择指令携带目标声音的标识信息;
根据所述目标声音的标识信息,获取对所述目标声音的视频进行学习得到的语音特征信息,所述语音特征信息包括所述目标声音的音色信息以及说话风格信息;
根据目标视频的文字信息以及所述目标声音的语音特征信息,进行语音合成,得到所述目标视频对应的第一配音音频。


2.根据权利要求1所述的方法,其特征在于,所述根据目标视频的文字信息以及所述目标声音的语音特征信息,进行语音合成,得到所述目标视频对应的第一配音音频包括:
根据所述目标视频的文字信息,获取所述文字信息对应的多个音频;
采用所述目标声音的语音特征信息对所述文字信息对应的多个音频进行调整,得到所述目标视频对应的第一配音音频。


3.根据权利要求1所述的方法,其特征在于,所述采用所述目标声音的语音特征信息对所述文字信息对应的多个音频进行调整,得到所述目标视频对应的第一配音音频包括:
按照所述目标声音的音色信息,将所述文字信息对应的多个音频的音色调整至与所述目标声音的音色信息相匹配;
按照所述目标声音的说话风格信息,将调整了音色的所述多个音频的播放速度和音调中至少一项调整至与所述目标声音的说话风格信息相匹配,得到所述目标视频对应的第一配音音频。


4.根据权利要求1所述的方法,其特征在于,所述进行语音合成之前,所述方法还包括:
根据接收到的情绪调整指令,获取目标情绪信息;
基于所述目标情绪信息,对所述多个音频的播放速度和音调中至少一项进行调整。


5.根据权利要求1所述的方法,其特征在于,所述进行语音合成之前,所述方法还包括:
根据接收到的音量调整指令,获取目标音量信息;
基于所述目标音量信息,对所述多个音频的播放音量进行调整。


6.根据权利要求1所述...

【专利技术属性】
技术研发人员:练建锋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1