字幕添加方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:20182517 阅读:31 留言:0更新日期:2019-01-23 02:20
本公开实施例提供了一种字幕添加方法、装置、电子设备及计算机可读存储介质,应用于视频处理技术领域,其中该方法包括:提取待添加字幕的视频文件中的音频信息,并对音频信息进行语音识别,得到音频信息对应的文本信息及语音环境特征,然后依据得到的文本信息及语音环境特征,生成相应的字幕信息,继而将字幕信息添加至视频文件中,以使得视频文件在播放时携带字幕信息。即本公开实现了视频对应的文本信息的自动获取,减少了获取视频对应的文本信息的时间,从而提升了添加视频字幕信息的效率;此外,根据得到的对应的文本信息及语音环境特征生成相应的字幕信息,即基于语音环境特征可设定对应的字幕显示方式,从而实现了字幕的个性化需求。

Subtitle addition methods, devices, electronic devices and computer-readable storage media

The present embodiment of the disclosure provides a caption addition method, device, electronic device and computer readable storage medium for application in the field of video processing technology. The method includes: extracting audio information from video files to be captioned, recognizing audio information, obtaining text information and speech environment characteristics corresponding to audio information, and then according to the obtained audio information. Text information and voice environment features generate corresponding subtitle information, and then add subtitle information to the video file, so that the video file can carry subtitle information when playing. That is to say, the present disclosure realizes the automatic acquisition of text information corresponding to video, reduces the time of acquiring text information corresponding to video, and thus improves the efficiency of adding video subtitle information; furthermore, according to the corresponding text information and speech environment characteristics, corresponding subtitle information can be generated, that is, the corresponding subtitle display mode can be set based on the speech environment characteristics, thus achieving the goal. Individualized demand for subtitles.

【技术实现步骤摘要】
字幕添加方法、装置、电子设备及计算机可读存储介质
本公开涉及视频处理
,具体而言,本公开涉及一种字幕添加方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着视频拍摄技术的成熟发展,电视娱乐节目视频、教学课程视频、短视频等不同类型的视频,由于其传播的信息内容的直观性、丰富性而成为了一种重要的信息传递媒介。在视频中,视频拍摄制作者通常会同步加上字幕信息,使视频观看者能更好的理解、把握视频传递的信息内容。目前,视频字幕信息的添加是通过人工添加的方式实现的,即字幕添加人员通过观看视频,同时人工记录观看的视频对应的文字信息,然后将记录的文字信息添加至视频中。然而,根据现有的人工添加视频字幕信息的方式,由于视频中相应人物的语速较快、字幕添加人员的文字记录速度慢等原因,字幕添加人员需要不断重复的回放观看视频,花费较长时间才能得到视频对应的文字信息,且人工添加的字幕仅包括文字信息,形式较单一。因此,现有的人工添加视频字幕信息的方式存在添加效率低、人工成本高的问题,以及存在添加的字幕形式较单一的问题。
技术实现思路
本公开提供了一种字幕添加方法、装置、电子设备及计算机可读存储介质,用于实现字幕信息的高效、自动添加,以及用于提升添加的字幕的形式的丰富性,本公开采用的技术方案如下:第一方面,提供了一种字幕添加方法,该方法包括,提取待添加字幕的视频文件中的音频信息;对音频信息进行语音识别,得到音频信息对应的文本信息及语音环境特征;依据得到的文本信息及语音环境特征,生成相应的字幕信息;将字幕信息添加至视频文件中,以使得视频文件在播放时携带字幕信息。第二方面,提供了一种字幕添加装置,该装置包括,第一提取模块,用于提取待添加字幕的视频文件中的音频信息;第一识别模块,用于对第一提取模块提取的音频信息进行语音识别,得到音频信息对应的文本信息及语音环境特征;生成模块,用于依据第一识别模块识别得到的文本信息及语音环境特征,生成相应的字幕信息;添加模块,用于将生成模块生成的字幕信息添加至视频文件中,以使得视频文件在播放时携带字幕信息。第三方面,提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器;一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的字幕添加方法。第四方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的字幕添加方法。本公开实施例提供了一种字幕添加方法、装置、电子设备及计算机可读存储介质,与现有技术通过人工方式添加视频字幕信息相比,本公开实施例通过提取待添加字幕的视频文件中的音频信息,并对音频信息进行语音识别,得到音频信息对应的文本信息及语音环境特征,然后依据得到的文本信息及语音环境特征,生成相应的字幕信息,继而将字幕信息添加至视频文件中,以使得视频文件在播放时携带字幕信息。即本公开实施例通过对音频信息进行语音识别得到对应的文本信息及语音环境特征,实现了视频对应的文本信息的自动获取,减少了获取视频对应的文本信息的时间,从而提升了添加视频字幕信息的效率;此外,根据得到的对应的文本信息及语音环境特征生成相应的字幕信息,即基于语音环境特征可设定对应的字幕显示方式,从而实现了字幕信息的个性化需求,进而提升视频观看者的兴趣度。本公开附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本公开的实践了解到。附图说明本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本公开实施例的一种字幕添加方法的流程示意图;图2为本公开实施例的一种字幕添加装置的结构示意图;图3为本公开实施例的另一种字幕添加装置的结构示意图;图4为本公开实施例的一种电子设备的结构示意图。具体实施方式下面详细描述本公开的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能解释为对本公开的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本公开的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。本公开实施例提供了一种字幕添加方法,如图1所示,该方法可以包括以下步骤:步骤S101,提取待添加字幕的视频文件中的音频信息;对于本公开实施例,通过相应的音频提取技术,如FFmpeg技术,提取待添加字幕的视频文件中的音频信息,其中,待添加字幕的视频可以是录制的电视节目视频、教学课程视频、短视频等,此处不做限定。其中,还可以对提取到的音频信息进行相应转换处理,转成成非压缩的纯波形文件来处理,比如WindowsPCM文件,即俗称的Wav文件。步骤S102,对音频信息进行语音识别,得到音频信息对应的文本信息及语音环境特征;对于本公开实施例,通过相应的语音识别技术对提取到的音频信息进行语音识别,得到音频信息对应的文本信息及语音环境特征,其中,对音频信息进行语音识别之前,可以对音频信息进行预处理,如通过消除噪声和信道失真对语音进行增强、通过VAD(VoiceActivityDetection,语音活动检测)技术进行首尾段的静音切除等。步骤S103,依据得到的文本信息及语音环境特征,生成相应的字幕信息;对于本公开实施例,不同的音频信息对应有不同的语音环境特征,基于得到的语音环境特征,对得到的文本信息进行相应处理,生成与语音环境特征相对应的字幕信息。步骤S104,将字幕信息添加至视频文件中,以使得视频文件在播放时携带字幕信息。对于本公开实施例,将字幕信息添加至视频文件中,以使得视频文件在播放时携带字幕信息,其中字幕信息可以是内嵌到视频文件中,也可以是以外挂字幕的形式存在,其中包含字幕信息的外挂文件的格式可以是srt、smi、ssa等。其中,外挂字幕文件可以是基于字幕信息与对应的视频的时间信息,进行播放控制处理后得到的,相应的播放控制处理用于使得字幕信息与视频能够同步播放。本公开实施例提供了一种字幕添加方法,与现有技术通过人工方式添加视频字幕信息相比,本公开实施例通过提取待添加字幕的视频文件中的音频信息,并对音频信息进行语音识别,得到音频信息对应的文本信息及语音环境特征,然后依据得到的文本信息及语音环境特征,生成相应的字幕信息,继而将字幕信息添加至视频文件中,以使得视频文件在播放时携带字幕信息。即本公开实施例通过对音频信息进行语音识别得到对应的文本信息及语音环境本文档来自技高网
...

【技术保护点】
1.一种字幕添加方法,其特征在于,包括,提取待添加字幕的视频文件中的音频信息;对所述音频信息进行语音识别,得到所述音频信息对应的文本信息及语音环境特征;依据得到的所述文本信息及语音环境特征,生成相应的字幕信息;将所述字幕信息添加至所述视频文件中,以使得所述视频文件在播放时携带所述字幕信息。

【技术特征摘要】
1.一种字幕添加方法,其特征在于,包括,提取待添加字幕的视频文件中的音频信息;对所述音频信息进行语音识别,得到所述音频信息对应的文本信息及语音环境特征;依据得到的所述文本信息及语音环境特征,生成相应的字幕信息;将所述字幕信息添加至所述视频文件中,以使得所述视频文件在播放时携带所述字幕信息。2.根据权利要求1所述的方法,其特征在于,对所述音频信息进行语音识别,得到所述音频信息对应的文本信息,包括:基于预训练的语言识别模型对所述音频信息进行语音识别,得到所述音频信息对应的文本信息。3.根据权利要求1所述的方法,其特征在于,对所述音频信息进行语音识别,得到所述音频信息对应的语音环境特征,包括:对所述音频信息进行声学特征提取,得到所述音频信息对应的语音环境特征。4.根据权利要求3所述的方法,其特征在于,所述语音环境特征包括以下至少一项:语调;语速;节奏;语音强度。5.根据权利要求1所述的方法,其特征在于,所述依据得到的所述文本信息及语音环境特征,生成相应的字幕信息,包括:依据所述语音环境特征,确定与所述语音环境特征相匹配的字幕显示配置信息;依据所述字幕显示配置信息,生成与所述文本信息相应的字幕信息。6.根据权利要求1所述的方法,其特征在于,所述依据得到的所述文本信息及语音环境特征,生成相应的字幕信息,包括:基于所述文本信息及语音环境特征确定所述音频信息对应的情感特征类型和/或语气类型;依据所述情感特征类型和/或语气类型,确定与所述情感特征类型和/或语气类型相匹配的字幕显示配置信息;依据所述字幕显示配置信息,生成与所述文本信息相应的字幕信息。7.根据权利要求1所述的方法,其特征在于,所述字幕显示配置信息包括以下至少一项:字幕文字属性信息;字幕特效信息;字幕显示位置。8.根据权利要求7所述的方法,其特征在于,该方法还包括,提取所述视频文件的图像帧;通过图像识别技术对所述图像帧进行识别得到所述图像帧中相应人物的人体部位信息;基于所述人体部位信息调整所述字幕信息的字幕显示位置。9.一种字幕添加装置,其特征在于,包括,第一提取模块,用于提取待添加字幕的视频文件中的音频信息;第一识别模块,用于对所述第一提取模块提取的所述音频信息进行语音识别,得到所述音频信息对应的文本信息及语音环境特征;生成模块,用于依据所述第一识别模块识别得到的所述文本信息及语音环境特征,生成相应的字幕信息;添加模块,用于将所述生成模块生成的所述字幕信息添加至所述视频文件中,以...

【专利技术属性】
技术研发人员:都之夏
申请(专利权)人:北京微播视界科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1