本申请公开一种视频处理方法、装置、电子设备、可读存储介质及系统,视频处理方法包括:获取原始多媒体视频,原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本;将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段;提取音频片段中说话人的特征信息;根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频;将目标音频、视频文件和字幕文本合成目标多媒体视频。本申请可以提高所合成的多媒体视频中音频的逼真度。频中音频的逼真度。频中音频的逼真度。
【技术实现步骤摘要】
视频处理方法、装置、电子设备、可读存储介质及系统
[0001]本申请涉及多媒体
,具体涉及一种视频处理方法、装置、电子设备、可读存储介质及系统。
技术介绍
[0002]随着技术的发展,电子设备的应用越来越广泛。人们经常使用电子设备观看视频。例如,当观看的视频是国外剧时,视频中采用的视频语种通常是外语(不是用户的母语),并配有用户的母语字幕,当用户听不懂该外语时,可以借助字幕来理解视频内容,这使得用户的注意力都集中在字幕上,而错过视频中的其他重要细节。
[0003]相关技术中,一般采用视频文件配音的方法将原视频中的音频消除,使用用户熟悉的语种进行配音得到新视频,但是新视频中配音形成的音频比较单一,不能体现出原视频中说话人的个性化音频特征,影响新视频中音频的逼真度。
技术实现思路
[0004]本申请实施例提供一种视频处理方法、装置、电子设备、可读存储介质及系统,可以提高所合成的多媒体视频中音频的逼真度。
[0005]第一方面,本申请实施例提供一种视频处理方法,包括:获取原始多媒体视频,原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本;将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段;提取音频片段中说话人的特征信息;根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频;将目标音频、视频文件和字幕文本合成目标多媒体视频。
[0006]第二方面,本申请实施例提供一种视频处理装置,包括:获取模块,用于获取原始多媒体视频,原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本;裁剪模块,用于将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段;提取模块,用于提取音频片段中说话人的特征信息;生成模块,用于根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频;合成模块,用于将目标音频、视频文件和字幕文本合成目标多媒体视频。
[0007]第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,其特征在于,处理器通过调用存储器中存储的计算机程序,用于执行如上述各实施例中的视频处理方法中的步骤。
[0008]第四方面,本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当计算机程序在计算机上执行时,使得计算机执行上述各实施例中的视频处理方法中的步骤。
[0009]第五方面,本申请实施例提供一种视频处理系统,包括流媒体设备和音频合成服务器,流媒体设备包括音视频分离器、音频预处理模块和同步器,音频合成服务器包括语音识别模块和语音合成器,其中,音视频分离器,用于获取原始多媒体视频,并从原始多媒体
视频中确定具有第一语种的原始音频、视频文件和具有第二语种的字幕文本;音频预处理模块,与音视频分离器连接,用于将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段;语音识别模块,与音频预处理模块连接,用于提取音频片段中说话人的特征信息;语音合成器,与语音识别模块连接,用于根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频;同步器,与语音合成器连接,用于将目标音频、视频文件和字幕文本合成目标多媒体视频。
[0010]本申请实施例中,首先将原始多媒体视频中的原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段,然后,提取音频片段中说话人的特征信息,并根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频;最后,将目标音频、视频文件和字幕文本合成目标多媒体视频。由于合成的目标音频与字幕文本属于同一语种,即第二语种,为目标用户所熟悉的语种,目标用户在观看处理后的视频,可以轻松理解音频内容,并且能够关注视频画面的细节。由于合成的目标音频融合了原始音频中说话人的特征信息,保留了原始音频中说话人的个性化音频特征。因此,本申请实施例可以提高所合成的多媒体视频中音频的逼真度。
附图说明
[0011]图1是本申请实施例提供的视频处理方法的第一种流程示意图;
[0012]图2是本申请实施例提供的视频处理方法的第二种流程示意图;
[0013]图3是本申请实施例提供的视频处理方法的第三种流程示意图;
[0014]图4是本申请实施例提供的视频处理装置的结构示意图;
[0015]图5是本申请实施例提供的电子设备的一种结构示意图;
[0016]图6是本申请实施例提供的电子设备的另一种结构示意图;
[0017]图7是本申请实施例提供的视频处理系统的结构示意图。
具体实施方式
[0018]请参照图示,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
[0019]可以理解的是,本申请实施例的执行主体可以是诸如智能手机、电脑、智能电视等具有视频处理功能的电子设备。
[0020]请参阅图1,图1是本申请实施例提供的第一种视频处理方法的流程示意图,流程可以包括:
[0021]101、获取原始多媒体视频,原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本。
[0022]随着技术的发展,电子设备的应用越来越广泛。人们经常使用电子设备观看视频。例如,当观看的视频是国外剧时,视频中采用的视频语种通常是外语(不是用户的母语),并配有用户的母语字幕,当用户听不懂该外语时,可以借助字幕来理解视频内容,这使得用户的注意力都集中在字幕上,而错过视频中的其他重要细节。
[0023]相关技术中,一般采用视频文件配音的方法将原视频中的音频消除,使用用户熟
悉的语种进行配音得到新视频,但是新视频中配音形成的音频比较单一,不能体现出原视频中说话人的个性化音频特征,影响新视频中音频的逼真度。
[0024]本申请实施例中,电子设备可以从网络服务器中获取原始多媒体视频,可以边下载边进行视频处理,例如,可以缓存一定时长的原始多媒体视频,然后进行视频处理。在另一个实施例中,电子设备还可以通过电子设备的数据接口获取原始多媒体视频,例如通过type
‑
C接口,将原始多媒体视频拷贝到电子设备本地进行处理。
[0025]在一个实施例中,原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本。其中,第一语种可以是用户不熟悉的语种,第二语种可以是用户熟悉的语种。例如,第一语种可以是英语,第二语种可以是中文,该视频以英语音频进行播放,并且配有中文字幕。可以理解的是,该原始多媒体视频主要针对的是熟悉英语或中文的用户,特别是针对熟悉中文但不太熟悉英语的用户。在其他实施例中,第一语种可以是韩语或日语等,第二语种可以是英语或者德语等。
[0026]102、将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段。
[0027]比如,电子设备获取到原始多媒体视频后,若用户直接观看原始多媒体视频时,由于不熟悉第一语种,无法听懂原本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:获取原始多媒体视频,所述原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本;将所述原始音频裁剪成与所述字幕文本中说话人的语句字幕对应的音频片段;提取所述音频片段中说话人的特征信息;根据所述说话人的语句字幕和所述说话人的特征信息生成具有第二语种的目标音频;将所述目标音频、所述视频文件和所述字幕文本合成目标多媒体视频。2.根据权利要求1所述的视频处理方法,其特征在于,所述提取所述音频片段中说话人的特征信息,包括:提取所述音频片段中说话人的特征信息;若所述说话人的特征信息符合第一预设条件,则根据所述说话人的特征信息获取所述说话人的目标特征信息;若所述说话人的特征信息符合第二预设条件,则确定所述说话人的目标特征信息。3.根据权利要求2所述的视频处理方法,其特征在于,所述说话人的特征信息包括声音特征信息,所述若所述说话人的特征信息符合第一预设条件,则根据所述说话人的特征信息获取所述说话人的目标特征信息,包括:若所述说话人的声音特征信息符合所述第一预设条件,则根据所述说话人的声音特征信息获取所述说话人的目标特征信息。4.根据权利要求3所述的视频处理方法,其特征在于,所述目标特征信息包括情绪、年龄和性别中的至少一种,所述若所述说话人的声音特征信息符合所述第一预设条件,则根据所述说话人的声音特征信息获取所述说话人的目标特征信息,包括:若所述说话人的声音特征信息符合所述第一预设条件,则据所述说话人的声音特征信息获取所述说话人的情绪、年龄和性别中的至少一种。5.根据权利要求2所述的视频处理方法,其特征在于,所述说话人的特征信息包括声音特征信息,所述若所述说话人的特征信息符合第二预设条件,则获取所述说话人的目标特征信息,包括:若所述说话人的声音特征信息符合所述第二预设条件,则确定所述说话人的目标特征信息。6.根据权利要求5所述的视频处理方法,其特征在于,所述目标特征信息包括情绪、年龄和性别中的至少一种,所述若所述说话人的声音特征信息符合所述第二预设条件,则确定所述说话人的目标特征信息,包括:所述若所述说话人的声音特征信息符合所述第二预设条件,则确定所述说话人的情绪、年龄和性别中的至少一种。7.根据权利要求2至6任一项所述的视频处理方法,其特征在于,根据所述说话人的语句字幕和所述说话人的特征信息生成具有第二语种的目标音频,包括:根据所述字幕文本中说话人的语句字幕与对应音频片段中说话人的目标特征信息生成目标音频片段;根据所述目标音频片段生成所述目标音频。8.根据权利要求3至6中任一项所述的视频处理方法,其特征在于,所述声音特征信息
包括音高或音色。9.根据权利要求1所述的视频处理方法,其特征在...
【专利技术属性】
技术研发人员:阿迪亚,
申请(专利权)人:深圳市万普拉斯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。