The invention discloses a subtitle generation method for Chinese online audio and video, which includes the following steps: S1, audio data extraction step, server receiving audio and video files, extracting audio data and converting it into standard format; S2, noise reduction step, noise reduction processing of audio data to obtain audio files; S3, data segmentation step, endpoint segmentation of audio files to obtain audio files. Frequency samples; S4, fragment recognition steps, further segmentation of the obtained audio samples, get the voice fragments, and then identify the voice fragments, sorting out the recognition results of all the audio data; S5, subtitle generation steps, integrated analysis of the text and the corresponding time axis, get the subtitle file, according to the generated subtitle file will match the subtitle with the audio data. The method of the invention can automatically complete speech recognition and subtitle generation of audio and video information, and effectively compensate for the deficiency of conversion efficiency of traditional manual shorthand in subtitle generation.
【技术实现步骤摘要】
中文在线音视频的字幕生成方法
本专利技术涉及一种字幕自动生成方法,具体而言,涉及一种中文在线课程音视频的字幕自动生成方法,属于音频识别
技术介绍
伴随着互联网技术的不断进步和提高,各类中文在线音频、视频课程网站也得到了广泛地普及和迅速的发展,传播各领域专业知识的途径和形式都发生了改变。音频、视频信息中的同步字幕,帮助学习者克服了由于地域文化和语言差异在理解新知识时造成的困难,也消除了由于授课人吐词不清、同音字、语音不标准等引起的收听、观看音视频信息的障碍。同时,给音视频加上字幕,还能有效帮助一些听力功能衰弱或有障碍的人群理解课程中的学习内容。传统的对音视频进行字幕添加的方式,是由专业的速记人员在收听、观看音视频数据的同时,以文字的方式快速记录每个时刻听到的声音信息,并记录下相应信息的时间戳,再由人工校对的方式将记录下的文字添加到音视频的特定时间戳位置上。该方式不仅对速记人员提出了很高的专业要求,还经常需要反复校对才能保证字幕内容的完善。此外,在添加字幕的过程中,往往也会因时间轴上存在误差而进行大量的精细调整,十分耗费人力资源。国外的一些视频课程网站,比如 ...
【技术保护点】
1.一种中文在线音视频的字幕生成方法,其特征在于,包括如下步骤:S1、音频数据提取步骤,服务器接收用户上传的音视频文件、并从所接收的音视频文件中提取出音频数据,将音频数据转化为标准格式;S2、降噪步骤,对已转化为标准格式的音频数据进行降噪处理,得到降噪完成的音频文件;S3、数据切分步骤,对音频文件进行端点切分,得到音频样本;S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到一系列语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果;S5、字幕生成步骤,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配。
【技术特征摘要】
1.一种中文在线音视频的字幕生成方法,其特征在于,包括如下步骤:S1、音频数据提取步骤,服务器接收用户上传的音视频文件、并从所接收的音视频文件中提取出音频数据,将音频数据转化为标准格式;S2、降噪步骤,对已转化为标准格式的音频数据进行降噪处理,得到降噪完成的音频文件;S3、数据切分步骤,对音频文件进行端点切分,得到音频样本;S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到一系列语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果;S5、字幕生成步骤,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配。2.根据权利要求1所述的中文在线音视频的字幕生成方法,其特征在于,S1所述音频数据提取步骤,具体包括:用户通过中文在线课程视频网站上传一段音视频文件,服务器接收到音视频文件、提取出其中的音频数据,服务器从音频数据中读取参数信息,并将音频数据转化为标准格式;所述参数信息至少包括声道数、编码方式及采样率。3.根据权利要求1或2任一所述的中文在线音视频的字幕生成方法,其特征在于:所述的标准格式为单声道和16000帧率的WAV格式。4.根据权利要求1所述的中文在线音视频的字幕生成方法,其特征在于,S2所述降噪步骤,具体包括:选取音频数据中前0.5秒的声音作为噪声样本,通过汉宁窗对噪声样本进行分帧并求出每一帧对应的强度值,以此作为噪声门阈值,再通过汉宁窗对音频数据进行分帧并求出每一帧对应的强度值,获得音频信号强度值,随后对音频信号强度值与噪声门阈值进行逐帧比较,保留音频信号强度值大于噪声门阈值的音频数据,最终得到降噪完成的音频文件。5.根据权利要求1所述的中文在线音视频的字幕生成方法,其特征在于,S3所述数据切分步骤,具体包括:采用双门限语音端点检测技术,对已完成降噪的音频文件进行端点切分,切分出可用的音频样本,将未满足...
【专利技术属性】
技术研发人员:薛景,陈康扬,王宇,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。