音视频合成的方法、装置、电子设备及介质制造方法及图纸

技术编号:24334218 阅读:24 留言:0更新日期:2020-05-29 21:25
本申请公开了一种音视频合成的方法、装置、电子设备及介质。其中,本申请中,获取针对第一用户的第一视频以及第一用户在第一视频中的第一语音数据进行文本转换而得到的第一语音文本,且获取针对第二用户的第二视频以及第二用户针对第一语音文本而生成的第二语音数据之后,即可以基于第一视频以及第二语音数据,生成目标视频。通过应用本申请的技术方案,可以在获取到老师的视频数据以及根据老师在视频中生成的语音文本后,将学生根据该语音文本进行朗读得到的语音数据与老师的视频数据进行合成,以得到目标视频。这也避免了相关技术中存在的学生仅能观看授课视频进行复习所导致的学习效率不高的问题。

Methods, devices, electronic equipment and media of audio and video synthesis

【技术实现步骤摘要】
音视频合成的方法、装置、电子设备及介质
本申请中涉及图像数据处理技术,尤其是一种音视频合成的方法、装置、电子设备及介质
技术介绍
随着社会的发展,越来越多的人会选择学习各种各样的知识来不断扩充自己。其中,由于传统的学生与教师面对面授课均需要双方在路上耗费大量的时间及精力。因此,随着通信时代的发展,网络授课已被广大的用户所接受。进一步的,在一般的远程授课视频中,通常由教师端和各个学生端通过使用自身的智能设备进行视频通信,以完成授课过程。这样的授课方式不仅可以避免线下授课带来的额外耗费时间精力的问题,还可以在授课结束后,学生随时观看授课时的回放视频,以便巩固所学知识。然而,相关技术中存在的在线授课方式比较单一,无法提高老师和学生的互动性,从而导致学生学习的效率不佳。
技术实现思路
本申请实施例提供一种音视频合成的方法、装置、电子设备及介质。其中,根据本申请实施例的一个方面,提供的一种音视频合成的方法,其特征在于,包括:获取第一用户的第一视频以及第一语音文本,所述第一语音文本基于所述第一用户在所述第一视频中的第一语音数据通过文本转换而得到;获取第二用户的第二视频以及对应的第二语音数据,所述第二语音数据为所述第二用户针对所述第一语音文本而生成的语音数据;基于所述第一视频以及所述第二语音数据,生成目标视频。可选地,在基于本申请上述方法的另一个实施例中,所述基于所述第一视频以及所述第二语音数据,生成目标视频,包括:对所述第一语音数据中的至少一个第一片段与所述第二语音数据中的至少一个第二片段进行匹配计算,得到至少一个匹配度;当所述匹配度中存在低于预设阈值的目标匹配度时,确定所述目标匹配对对应的第一语音数据中的第一目标片段以及所述第二语音数据中的第二目标片段,基于所述第一目标片段与所述第二目标片段的差异,生成提示信息;基于所述第一视频、所述第二语音数据以及所述提示信息,生成所述目标视频。可选地,在基于本申请上述方法的另一个实施例中,在所述生成提示信息之后,还包括:当检测到针对所述提示信息的查看指令时,显示差异内容,所述差异内容包括所述目标匹配度对应的第一目标片段和/或所述第二目标片段。可选地,在基于本申请上述方法的另一个实施例中,所述对所述第一语音数据中的至少一个第一片段与所述第二语音数据中的至少一个第二片段进行匹配计算,得到至少一个匹配度,包括:计算所述第一片段所对应的第一音频特征与所述第二片段所对应的第二音频特征的音频特征相似度,和/或计算所述第一片段所对应的第一文本片段与所述第二片段所对应的第二文本片段的语义特征相似度;基于所述音频特征相似度和/或所述语义特征相似度,计算所述匹配度。可选地,在基于本申请上述方法的另一个实施例中,所述基于所述第一视频以及所述第二语音数据,生成目标视频,包括:将至少部分所述第二语音数据添加到所述第一视频中,覆盖至少部分所述第一语音数据,生成所述目标视频;或,将所述第一视频和所述第二视频合成为所述目标视频,其中,所述目标视频播放时,以画中画的方式播放所述第一视频和/或所述第二视频。可选地,在基于本申请上述方法的另一个实施例中,所述将至少部分所述第二语音数据添加到所述第一视频中,包括:识别所述第一语音数据中的第三片段,所述第三片段为所述第一语音数据中首个达到预设时长的音频数据片段;在所述第二语音数据查找与所述第三片段匹配的第四片段;以所述第四片段作为起始基准点,将所述至少部分第二语音数据添加到所述第一视频中。可选地,在基于本申请上述方法的另一个实施例中,所述基于所述第一视频以及所述第二语音数据,生成目标视频,还包括:识别所述第二语音数据中的至少一个特定音频特征;得到与至少一个所述特定音频特征相匹配的至少一个图像标签;基于所述第一视频、所述第二语音数据以及所述至少一个图像标签,生成所述目标视频。另外的,根据本申请实施例的一个方面,提供的一种音视频合成的装置,其特征在于,包括:第一获取模块,被设置为获取针对第一用户的第一视频以及第一语音文本,所述第一语音文本为将所述第一用户在所述第一视频中的第一语音进行文本转换而得到的;第二获取模块,被设置为获取针对第二用户的第二视频以及对应的第二语音数据,所述第二语音为所述第二用户针对所述第一语音文本而生成的语音;生成模块,被设置为基于所述第一视频以及所述第二语音数据,生成目标视频。根据本申请实施例的又一个方面,提供的一种电子设备,包括:存储器,用于存储可执行指令;以及显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述音视频合成的方法的操作。根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述音视频合成的方法的操作。本申请中,在获取针对第一用户的第一视频以及第一用户在第一视频中的第一语音数据进行文本转换而得到的第一语音文本,且获取针对第二用户的第二视频以及第二用户针对第一语音文本而生成的第二语音数据之后,即可以基于第一视频以及第二语音数据,生成目标视频。通过应用本申请的技术方案,可以在获取到老师的视频数据以及根据老师在视频中生成的语音文本后,将学生根据该语音文本进行朗读得到的语音数据与老师的视频数据进行合成,以得到目标视频。这也避免了相关技术中存在的学生仅能观看授课视频进行复习所导致的学习效率不高的问题。下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。附图说明构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:图1为本申请提出的音视频合成的系统架构示意图;图2为本申请提出的一种音视频合成的方法的示意图;图3为本申请提出的一种音视频合成的方法的示意图;图4为本申请音视频合成的装置的结构示意图;图5为本申请显示电子设备结构示意图。具体实施方式现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。另外,本申请各个实施例之间的技术方案可以相互结合,但本文档来自技高网...

【技术保护点】
1.一种音视频合成的方法,其特征在于,包括:/n获取第一用户的第一视频以及第一语音文本,所述第一语音文本基于所述第一用户在所述第一视频中的第一语音数据通过文本转换而得到;/n获取第二用户的第二视频以及对应的第二语音数据,所述第二语音数据为所述第二用户针对所述第一语音文本而生成的语音数据;/n基于所述第一视频以及所述第二语音数据,生成目标视频。/n

【技术特征摘要】
1.一种音视频合成的方法,其特征在于,包括:
获取第一用户的第一视频以及第一语音文本,所述第一语音文本基于所述第一用户在所述第一视频中的第一语音数据通过文本转换而得到;
获取第二用户的第二视频以及对应的第二语音数据,所述第二语音数据为所述第二用户针对所述第一语音文本而生成的语音数据;
基于所述第一视频以及所述第二语音数据,生成目标视频。


2.如权利要求1所述的方法,其特征在于,所述基于所述第一视频以及所述第二语音数据,生成目标视频,包括:
对所述第一语音数据中的至少一个第一片段与所述第二语音数据中的至少一个第二片段进行匹配计算,得到至少一个匹配度;
当所述匹配度中存在低于预设阈值的目标匹配度时,确定所述目标匹配对应的第一语音数据中的第一目标片段以及所述第二语音数据中的第二目标片段,基于所述第一目标片段与所述第二目标片段的差异,生成提示信息;
基于所述第一视频、所述第二语音数据以及所述提示信息,生成所述目标视频。


3.如权利要求2所述的方法,其特征在于,在所述生成提示信息之后,还包括:
当检测到针对所述提示信息的查看指令时,显示差异内容,所述差异内容包括所述目标匹配度对应的第一目标片段和/或所述第二目标片段。


4.如权利要求2或3所述的方法,其特征在于,所述对所述第一语音数据中的至少一个第一片段与所述第二语音数据中的至少一个第二片段进行匹配计算,得到至少一个匹配度,包括:
计算所述第一片段所对应的第一音频特征与所述第二片段所对应的第二音频特征的音频特征相似度,和/或计算所述第一片段所对应的第一文本片段与所述第二片段所对应的第二文本片段的语义特征相似度;
基于所述音频特征相似度和/或所述语义特征相似度,计算所述匹配度。


5.如权利要求1所述的方法,其特征在于,所述基于所述第一视频以及所述第二语音数据,生成目标视频,包括:
将至少部分所述第二语音数据添加到...

【专利技术属性】
技术研发人员:骆曦张特王贺张頔徐放
申请(专利权)人:北京大米未来科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1