一种视频合成的方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:29304933 阅读:19 留言:0更新日期:2021-07-17 01:44
本申请属于通信技术领域,公开了一种视频合成的方法、装置、电子设备及可读存储介质,该方法包括,响应于用户针对目标资源的选择操作,确定与目标资源相对应的目标图片集合以及参考文本;获取采集的音频文件;若确定音频文件的语音识别文本与参考文本相匹配,则根据音频文件的音频有效时长、目标图片集合以及参考文本,生成背景视频;将音频文件和背景视频进行合成,获得合成后的目标视频,这样,根据音频文件的音频有效时长以及目标图片,生成背景视频,对音频有效时长没有限制,提高了视频合成的灵活性。的灵活性。的灵活性。

The invention relates to a video synthesis method, a device, an electronic device and a readable storage medium

【技术实现步骤摘要】
一种视频合成的方法、装置、电子设备及可读存储介质


[0001]本申请涉及通信
,具体而言,涉及一种视频合成的方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着多媒体技术的发展,多媒体制作的应用也越来越普及。实际应用中,用户通常需要进行音频的采集以及视频的合成,如,采集用户朗诵的古诗词朗诵,并将采集的音频文件与背景视频合成,获得合成视频。
[0003]但是,由于背景视频以及视频时长是固定的,因此,在进行音频录制时,音频时长的限制性较大,难以灵活调整,因此,在进行视频合成时,如何提高视频合成的灵活性,是一个需要解决的问题。

技术实现思路

[0004]本申请实施例的目的在于提供一种视频合成的方法、装置、电子设备及可读存储介质,在进行视频合成时,提高视频合成的灵活性。
[0005]一方面,提供一种视频合成的方法,包括:
[0006]响应于用户针对目标资源的选择操作,确定与目标资源相对应的目标图片集合以及参考文本;
[0007]获取采集的音频文件;
[0008]若确定音频文件的语音识别文本与参考文本相匹配,则根据音频文件的音频有效时长、目标图片集合以及参考文本,生成背景视频;
[0009]将音频文件和背景视频进行合成,获得合成后的目标视频。
[0010]在上述实现过程中,可以通过目标图片集合以及音频有效时长,灵活生成背景视频,进而减少对音频文件的时长的限制,提高视频合成的灵活性。
[0011]可选的,确定与目标资源相对应的目标图片集合,包括:
[0012]确定与目标资源相对应的风格标签集合,风格标签集合中包含至少一个图片集合对应的风格标签;
[0013]响应于用户的标签选择,从风格标签集合中选择出与用户的喜好相对应的目标风格标签;
[0014]将目标风格标签对应的图片集合作为目标图片集合。
[0015]在上述实现过程中,用户可以通过风格标签,选择喜欢的目标图片集合。
[0016]可选的,确定音频文件的语音识别文本与参考文本相匹配,包括:
[0017]对音频文件进行语音识别,获得语音识别文本;
[0018]将语音识别文本与参考文本进行匹配;
[0019]若确定语音识别文本和参考文本之间的匹配度高于设定阈值,则确定音频文件的语音识别文本与参考文本相匹配。
[0020]在上述实现过程中,通过匹配度,可以判断语音识别文本与参考文本是否匹配,从而可以判断音频文件是否正确。
[0021]可选的,根据音频文件的音频有效时长、目标图片集合以及参考文本,生成背景视频,包括:
[0022]将参考文本划分为至少一个文本集合;
[0023]根据一一对应关系,将至少一个文本集合与目标图片集合中的至少一张目标图片分别合成,获得至少一个合成图片;
[0024]按照至少一个文本集合的先后顺序,将至少一个合成图片进行排列,获得合成图片集合;
[0025]根据音频有效时长,设置合成图片集合的播放时长;
[0026]根据合成图片集合,以及相应的播放时长,生成背景视频。
[0027]在上述实现过程中,将文本集合作为字幕,合成到目标图片中,进而根据音频有效时长以及合成图片集合,生成背景视频,可以灵活生成背景视频。
[0028]可选的,根据一一对应关系,将至少一个文本集合与目标图片集合中的至少一张目标图片分别合成,获得至少一个合成图片,包括:
[0029]分别针对至少一个文本集合中的每一文本集合,执行以下步骤:
[0030]从目标图片集合中,确定一个文本集合匹配的目标图片;
[0031]采用字幕的形式,将一个文本集合与匹配的目标图片合成,获得合成图片,使得一个文本集合为合成图片的字幕。
[0032]在上述实现过程中,将文本集合设置为图片字幕。
[0033]可选的,根据合成图片集合,以及相应的播放时长,生成背景视频,包括:
[0034]根据语音识别文本、文本集合以及合成图片三者之间的对应关系,以及音频文件,分别确定每一合成图片的显示时长;
[0035]根据合成图片集合、播放时长以及各合成图片的显示时长,生成背景视频。
[0036]在上述实现过程中,可以在生成背景视频时,设置各合成图片的显示时长。
[0037]可选的,在获得合成后的目标视频之后,方法还包括:
[0038]根据用户的修改指令,对目标视频进行修改;
[0039]其中,修改包括以下至少一种:
[0040]修改字幕的位置;
[0041]修改字幕的字体大小;
[0042]修改字幕的字体颜色;
[0043]修改目标风格标签。
[0044]在上述实现过程中,可以在视频合成后,对合成视频的字幕的形式以及视频帧进行修改。
[0045]一方面,提供一种视频合成的装置,包括:
[0046]确定单元,用于响应于用户针对目标资源的选择操作,确定与目标资源相对应的目标图片集合以及参考文本;
[0047]获取单元,用于获取采集的音频文件;
[0048]生成单元,用于若确定音频文件的语音识别文本与参考文本相匹配,则根据音频
文件的音频有效时长、目标图片集合以及参考文本,生成背景视频;
[0049]合成单元,用于将音频文件和背景视频进行合成,获得合成后的目标视频。
[0050]可选的,确定单元用于:
[0051]确定与目标资源相对应的风格标签集合,风格标签集合中包含至少一个图片集合对应的风格标签;
[0052]响应于用户的标签选择,从风格标签集合中选择出与用户的喜好相对应的目标风格标签;
[0053]将目标风格标签对应的图片集合作为目标图片集合。
[0054]可选的,生成单元用于:
[0055]对音频文件进行语音识别,获得语音识别文本;
[0056]将语音识别文本与参考文本进行匹配;
[0057]若确定语音识别文本和参考文本之间的匹配度高于设定阈值,则确定音频文件的语音识别文本与参考文本相匹配。
[0058]可选的,生成单元用于:
[0059]将参考文本划分为至少一个文本集合;
[0060]根据一一对应关系,将至少一个文本集合与目标图片集合中的至少一张目标图片分别合成,获得至少一个合成图片;
[0061]按照至少一个文本集合的先后顺序,将至少一个合成图片进行排列,获得合成图片集合;
[0062]根据音频有效时长,设置合成图片集合的播放时长;
[0063]根据合成图片集合,以及相应的播放时长,生成背景视频。
[0064]可选的,生成单元用于:
[0065]分别针对至少一个文本集合中的每一文本集合,执行以下步骤:
[0066]从目标图片集合中,确定一个文本集合匹配的目标图片;
[0067]采用字幕的形式,将一个文本集合与匹配的目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频合成的方法,其特征在于,包括:响应于用户针对目标资源的选择操作,确定与所述目标资源相对应的目标图片集合以及参考文本;获取采集的音频文件;若确定所述音频文件的语音识别文本与所述参考文本相匹配,则根据所述音频文件的音频有效时长、所述目标图片集合以及所述参考文本,生成背景视频;将所述音频文件和所述背景视频进行合成,获得合成后的目标视频。2.如权利要求1所述的方法,其特征在于,所述确定与所述目标资源相对应的目标图片集合,包括:确定与所述目标资源相对应的风格标签集合,所述风格标签集合中包含至少一个图片集合对应的风格标签;响应于所述用户的标签选择,从所述风格标签集合中选择出与所述用户的喜好相对应的目标风格标签;将所述目标风格标签对应的图片集合作为所述目标图片集合。3.如权利要求1所述的方法,其特征在于,所述确定所述音频文件的语音识别文本与所述参考文本相匹配,包括:对所述音频文件进行语音识别,获得语音识别文本;将所述语音识别文本与所述参考文本进行匹配;若确定所述语音识别文本和所述参考文本之间的匹配度高于设定阈值,则确定所述音频文件的语音识别文本与所述参考文本相匹配。4.如权利要求1

3任一项所述的方法,其特征在于,所述根据所述音频文件的音频有效时长、所述目标图片集合以及所述参考文本,生成背景视频,包括:将所述参考文本划分为至少一个文本集合;根据一一对应关系,将所述至少一个文本集合与所述目标图片集合中的至少一张目标图片分别合成,获得至少一个合成图片;按照所述至少一个文本集合的先后顺序,将所述至少一个合成图片进行排列,获得合成图片集合;根据所述音频有效时长,设置所述合成图片集合的播放时长;根据所述合成图片集合,以及相应的播放时长,生成背景视频。5.如权利要求4所述的方法,其特征在于,所述根据一一对应关系,将所述至少一个文本集合与所述目标图片集合中的至少...

【专利技术属性】
技术研发人员:张晓宇孙世文
申请(专利权)人:北京乐学帮网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1