一种音视频处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23102028 阅读:15 留言:0更新日期:2020-01-14 21:10
本申请提供一种音视频处理方法、装置、电子设备及存储介质。该方法包括:采集视频信息,并获得音频信息和所述音频信息对应的文字信息;其中所述音频信息为通过第一终端采集获得;将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。本申请实施例通过第一终端采集音频信息,通过智能设备采集视频信息,以及根据音频信息生成对应的文字信息,最后,将音频信息、视频信息和文字信息进行合成,一方面能够同时保证音频和视频的质量,另一方面,通过文字信息可以使用户获得更加准确的音频信息,能够更好地理解音视频。

An audio and video processing method, device, electronic equipment and storage medium

【技术实现步骤摘要】
一种音视频处理方法、装置、电子设备及存储介质
本申请涉及音视频处理
,具体而言,涉及一种音视频处理方法、装置、电子设备及存储介质。
技术介绍
对于音视频的录制,例如在进行晚会直播活动时,会采用录制设备同时进行音视频的录制。为了能够录制视角更加广阔的视频,需要将录制设备置于较高的位置,以防止观众的遮挡,此时,由于距离舞台上演员较远,从而导致录制的声音较小,且容易录制到一些噪音。如果为了提高录制的音质,则需要将录制设备置于演员较近的位置,那么则无法获得视角广阔的视频。
技术实现思路
本申请实施例的目的在于提供一种音视频处理方法、装置、电子设备及存储介质,用以解决现有技术中,无法同时获得高质量的音频和视频的问题。第一方面,本申请实施例提供一种音视频处理方法,应用于智能设备,包括:采集视频信息,并获得音频信息和所述音频信息对应的文字信息;其中所述音频信息为通过第一终端采集获得;将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。本申请实施例通过第一终端采集音频信息,通过智能设备采集视频信息,以及根据音频信息生成对应的文字信息,最后,将音频信息、视频信息和文字信息进行合成,一方面能够同时保证音频和视频的质量,另一方面,通过文字信息可以使用户获得更加准确的音频信息,能够更好地理解音视频。进一步地,所述视频信息、所述音频信息和所述文字信息均包括第一时间信息;所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件,包括:根据所述第一时间信息将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。通过第一时间信息保证了音频、视频和文字合成后在时间上的同步,防止音频、视频和文字有延时的情况。进一步地,所述视频信息中包括人,所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件,包括:获取所述视频信息对应的多帧视频图像,并对多帧视频图像进行识别,获得所述视频信息中人的口型变化特征;根据所述口型变化特征获得对应的文字;根据所述口型变化特征对应的文字将所述视频信息、音频信息和所述文字信息合成所述带有字幕的音视频文件。本申请实施例通过口型变化获得视频中的人说的话,并基于此进行音视频的合成,从而保证了音频、视频和文字合成后在时间上的同步。进一步地,所述获得音频信息和所述音频信息对应的文字信息,包括:接收所述第一终端发送的所述音频信息;根据所述音频信息生成对应的所述文字信息。本申请在音视频合成时,加入了字幕,有利用用户对音频的理解。进一步地,所述根据所述音频信息生成对应的所述文字信息,包括:对所述音频信息进行预处理,获得处理后音频信息;对所述处理后音频信息进行端点切分,获得音频样本;根据预设的最小静音长度和最短有效声音对所述音频样本进行再次切分,获得多个音频片段;对每个音频片段进行文字识别,获得所述文字信息。本申请实施例通过两次切分获得音频片段,能够提高生成的文字信息的准确性。进一步地,所述获得音频信息和所述音频信息对应的文字信息,包括:接收所述第一终端发送的所述音频信息和所述文字信息,其中,所述文字信息为所述第一终端根据采集的所述音频信息生成的。本申请实施例通过将合成操作在第一终端完成,从而智能设备无需具备这样的功能,降低了智能设备的要求。进一步地,所述采集视频信息,包括:接收所述第一终端发送的控制指令,根据所述控制指令采集所述视频信息。通过远程控制智能设备进行视频的录制,保证了智能设备能够与第一终端同步采集,并且便于控制参数的调整。进一步地,所述控制指令包括第二时间信息;所述根据所述控制指令采集所述视频信息,包括:若所述第二时间信息为延时时长的信息,则所述智能设备在接收到所述控制指令后,等待所述延时时长进行视频信息的采集;若所述第二时间信息为进行视频采集的时间点,则当到达所述时间点时,所述智能设备开始采集所述视频信息。本申请实施例通过控制指令中的第二时间信息保证了第一终端和智能设备在录制时的同步。第二方面,本申请实施例提供一种音视频处理方法,应用于第一终端,包括:采集音频信息,并根据所述音频信息生成对应的文字信息;接收智能设备发送的视频信息;将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。本申请实施例通过第一终端采集音频信息,通过智能设备采集视频信息,并将其生成带有字幕的音视频文件,第一方面,保证了采集到的音频和视频的质量,第二方面,通过字幕便于用户对音频的理解,第三方面,智能设备无需具备音视频文件合成及文字信息生成的功能,其对智能设备的要求较低。进一步地,所述视频信息、所述音频信息和所述文字信息均包括第一时间信息;所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件,包括:根据所述第一时间信息将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。根据第一时间信息进行音频、视频和字幕的合成,从而使得合成后的音视频文件在时间上保持同步。进一步地,在接收智能设备发送的视频信息之前,所述方法还包括:向所述智能设备发送控制指令,以使所述智能设备根据所述控制指令采集所述视频信息。通过远程控制智能设备,可以方便地对智能设备在采集视频时的参数的设定。第三方面,本申请实施例提供一种音视频处理方法,应用于服务器,包括:获得视频信息、音频信息和所述音频信息对应的文字信息;其中,所述视频信息为智能设备采集获得,所述音频信息为第一终端采集获得;将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。本申请实施例通过第一终端采集音频、智能设备采集视频、服务器进行音视频的合成,一方面提高了音频和视频的质量,一方面通过字幕有助于用户理解音频信息,再一方面,能够降低第一终端和智能设备的负载。进一步地,所述视频信息、所述音频信息和所述文字信息均包括第一时间信息;所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件,包括:根据所述第一时间信息将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。通过第一时间信息能够保证音频、视频和字幕在时间上的同步。进一步地,所述获得所述音频信息对应的文字信息,包括:接收所述第一终端发送的所述文字信息,其中,所述文字信息为所述第一终端根据所述音频信息生成的。通过第一终端生成音频信息对应的文字信息,降低了对智能设备的要求。进一步地,所述获得所述音频信息对应的文字信息,包括:所述服务器根据所述音频信息生成对应的所述文字信息。通过服务器生成文字信息降低了对第一终端的负载。第四方面,本申请实施例提供一种,音视频处理装置,包括:第一信息获得模块,用于采集视频信息,并获得本文档来自技高网...

【技术保护点】
1.一种音视频处理方法,其特征在于,应用于智能设备,包括:/n采集视频信息,并获得音频信息和所述音频信息对应的文字信息;其中所述音频信息为通过第一终端采集获得;/n将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。/n

【技术特征摘要】
1.一种音视频处理方法,其特征在于,应用于智能设备,包括:
采集视频信息,并获得音频信息和所述音频信息对应的文字信息;其中所述音频信息为通过第一终端采集获得;
将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。


2.根据权利要求1所述的方法,其特征在于,所述视频信息、所述音频信息和所述文字信息均包括第一时间信息;所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件,包括:
根据所述第一时间信息将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。


3.根据权利要求1所述的方法,其特征在于,所述视频信息中包括人,所述将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件,包括:
获取所述视频信息对应的多帧视频图像,并对多帧视频图像进行识别,获得所述视频信息中人的口型变化特征;
根据所述口型变化特征获得对应的文字;
根据所述口型变化特征对应的文字将所述视频信息、音频信息和所述文字信息合成所述带有字幕的音视频文件。


4.根据权利要求1所述的方法,其特征在于,所述获得音频信息和所述音频信息对应的文字信息,包括:
接收所述第一终端发送的所述音频信息;
根据所述音频信息生成对应的所述文字信息。


5.根据权利要求4所述的方法,其特征在于,所述根据所述音频信息生成对应的所述文字信息,包括:
对所述音频信息进行预处理,获得处理后音频信息;
对所述处理后音频信息进行端点切分,获得音频样本;
根据预设的最小静音长度和最短有效声音对所述音频样本进行再次切分,获得多个音频片段;
对每个音频片段进行文字识别,获得所述文字信息。


6.根据权利要求1所述的方法,其特征在于,所述获得音频信息和所述音频信息对应的文字信息,包括:
接收所述第一终端发送的所述音频信息和所述文字信息,其中,所述文字信息为所述第一终端根据采集的所述音频信息生成的。


7.根据权利要求1-6任一项所述的方法,其特征在于,所述采集视频信息,包括:
接收所述第一终端发送的控制指令,根据所述控制指令采集所述视频信息。


8.根据权利要求7所述的方法,其特征在于,所述控制指令包括第二时间信息;所述根据所述控制指令采集所述视频信息,包括:
若所述第二时间信息为延时时长的信息,则所述智能设备在接收到所述控制指令后,等待所述延时时长进行视频信息的采集;
若所述第二时间信息为进行视频采集的时间点,则当到达所述时间点时,所述智能设备开始采集所述视频信息。


9.一种音视频处理方法,其特征在于,应用于第一终端,包括:
采集音频信息,并根据所述音频信息生成对应的文字信息;
接收智能设备发送的视频信息;
将所述视频信息、所述音频信息和所述文字信息合成带有字幕的音视频文件。


10.根据权利要求9所述的方法,其特征在于,所述视频信息、所述音频信息和所述文字信息均包括第一时间信息;...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:苏州臻迪智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利