The present embodiment of the disclosure provides a caption addition method, device, electronic device and computer readable storage medium for application in the field of video processing technology. The method includes: extracting audio information from video files to be captioned, recognizing audio information, obtaining text information and speech environment characteristics corresponding to audio information, and then according to the obtained audio information. Text information and voice environment features generate corresponding subtitle information, and then add subtitle information to the video file, so that the video file can carry subtitle information when playing. That is to say, the present disclosure realizes the automatic acquisition of text information corresponding to video, reduces the time of acquiring text information corresponding to video, and thus improves the efficiency of adding video subtitle information; furthermore, according to the corresponding text information and speech environment characteristics, corresponding subtitle information can be generated, that is, the corresponding subtitle display mode can be set based on the speech environment characteristics, thus achieving the goal. Individualized demand for subtitles.
【技术实现步骤摘要】
字幕添加方法、装置、电子设备及计算机可读存储介质
本公开涉及视频处理
,具体而言,本公开涉及一种字幕添加方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着视频拍摄技术的成熟发展,电视娱乐节目视频、教学课程视频、短视频等不同类型的视频,由于其传播的信息内容的直观性、丰富性而成为了一种重要的信息传递媒介。在视频中,视频拍摄制作者通常会同步加上字幕信息,使视频观看者能更好的理解、把握视频传递的信息内容。目前,视频字幕信息的添加是通过人工添加的方式实现的,即字幕添加人员通过观看视频,同时人工记录观看的视频对应的文字信息,然后将记录的文字信息添加至视频中。然而,根据现有的人工添加视频字幕信息的方式,由于视频中相应人物的语速较快、字幕添加人员的文字记录速度慢等原因,字幕添加人员需要不断重复的回放观看视频,花费较长时间才能得到视频对应的文字信息,且人工添加的字幕仅包括文字信息,形式较单一。因此,现有的人工添加视频字幕信息的方式存在添加效率低、人工成本高的问题,以及存在添加的字幕形式较单一的问题。
技术实现思路
本公开提供了一种字幕添加方法、装置、电子设备及计算机可读存储介质,用于实现字幕信息的高效、自动添加,以及用于提升添加的字幕的形式的丰富性,本公开采用的技术方案如下:第一方面,提供了一种字幕添加方法,该方法包括,提取待添加字幕的视频文件中的音频信息;对音频信息进行语音识别,得到音频信息对应的文本信息及语音环境特征;依据得到的文本信息及语音环境特征,生成相应的字幕信息;将字幕信息添加至视频文件中,以使得视频文件在播放时携带字幕信息。第二方面,提供了一种字幕添 ...
【技术保护点】
1.一种字幕添加方法,其特征在于,包括,提取待添加字幕的视频文件中的音频信息;对所述音频信息进行语音识别,得到所述音频信息对应的文本信息及语音环境特征;依据得到的所述文本信息及语音环境特征,生成相应的字幕信息;将所述字幕信息添加至所述视频文件中,以使得所述视频文件在播放时携带所述字幕信息。
【技术特征摘要】
1.一种字幕添加方法,其特征在于,包括,提取待添加字幕的视频文件中的音频信息;对所述音频信息进行语音识别,得到所述音频信息对应的文本信息及语音环境特征;依据得到的所述文本信息及语音环境特征,生成相应的字幕信息;将所述字幕信息添加至所述视频文件中,以使得所述视频文件在播放时携带所述字幕信息。2.根据权利要求1所述的方法,其特征在于,对所述音频信息进行语音识别,得到所述音频信息对应的文本信息,包括:基于预训练的语言识别模型对所述音频信息进行语音识别,得到所述音频信息对应的文本信息。3.根据权利要求1所述的方法,其特征在于,对所述音频信息进行语音识别,得到所述音频信息对应的语音环境特征,包括:对所述音频信息进行声学特征提取,得到所述音频信息对应的语音环境特征。4.根据权利要求3所述的方法,其特征在于,所述语音环境特征包括以下至少一项:语调;语速;节奏;语音强度。5.根据权利要求1所述的方法,其特征在于,所述依据得到的所述文本信息及语音环境特征,生成相应的字幕信息,包括:依据所述语音环境特征,确定与所述语音环境特征相匹配的字幕显示配置信息;依据所述字幕显示配置信息,生成与所述文本信息相应的字幕信息。6.根据权利要求1所述的方法,其特征在于,所述依据得到的所述文本信息及语音环境特征,生成相应的字幕信息,包括:基于所述文本信息及语音环境特征确定所述音频信息对应的情感特征类型和/或语气类型;依据所述情感特征类型和/或语气类型,确定与所述情感特征类型和/或语气类型相匹配的字幕显示配置信息;依据所述字幕显示配置信息,生成与所述文本信息相应的字幕信息。7.根据权利要求1所述的方法,其特征在于,所述字幕显示配置信息包括以下至少一项:字幕文字属性信息;字幕特效信息;字幕显示位置。8.根据权利要求7所述的方法,其特征在于,该方法还包括,提取所述视频文件的图像帧;通过图像识别技术对所述图像帧进行识别得到所述图像帧中相应人物的人体部位信息;基于所述人体部位信息调整所述字幕信息的字幕显示位置。9.一种字幕添加装置,其特征在于,包括,第一提取模块,用于提取待添加字幕的视频文件中的音频信息;第一识别模块,用于对所述第一提取模块提取的所述音频信息进行语音识别,得到所述音频信息对应的文本信息及语音环境特征;生成模块,用于依据所述第一识别模块识别得到的所述文本信息及语音环境特征,生成相应的字幕信息;添加模块,用于将所述生成模块生成的所述字幕信息添加至所述视频文件中,以...
【专利技术属性】
技术研发人员:都之夏,
申请(专利权)人:北京微播视界科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。