一种从多音轨视频文件中提取字幕时间轴的系统及方法技术方案

技术编号:24334214 阅读:50 留言:0更新日期:2020-05-29 21:25
本发明专利技术公开了一种从多音轨视频文件中提取字幕时间轴的系统和方法,系统包括音轨提取模块、静音检测模块、辅助音轨模块、时间轴生成模块和时间轴优化模块。首先,提取主音轨和任一路其它音轨,然后,对两路音轨分别做音频分段,得到两组音频时间轴信息;判断第二路音轨是否可作为辅助音轨;按照主时间轴信息,逐个比对主音轨和辅助音轨的音频段,提取每一个音频差异开始点和相似开始点,记录对应的开始时间和结束时间,作为语音分段的时间轴,依次遍历所有的音频段后,得到新的语音段和对应的时间轴信息;优化语音分段的时间轴信息,得到目标字幕时间轴数据。本发明专利技术算法简单,时间轴信息准确,且提高了字幕和音视频的匹配度,使用户体验感更好。

A system and method of extracting subtitle timeline from multi track video files

【技术实现步骤摘要】
一种从多音轨视频文件中提取字幕时间轴的系统及方法
本专利技术涉及语音处理
,尤其涉及一种从多音轨视频文件中提取字幕时间轴的系统及方法。
技术介绍
字幕是影视作品中人物对话的文本内容,可以让不同母语的观众更好的理解影视内容。传统的字幕制作由专业制作人员完成,具体需要时间轴制作、听写、翻译和校准等几个环节。这种传统制作方式需要大量人力,流程繁琐,效率低下。随着语音识别技术和机器翻译的发展,基于这些技术的时间轴制作、字幕生成方法和系统应运而生。这些方法和系统跟传统字幕制作的流程基本一致,包括时间轴制作(音轨分段)、语音识别和机器翻译;其通过程序代替人工,极大的提高了字幕制作的效率和灵活性。时间轴信息是字幕文件中每一句对白的开始和结束时间信息,用来保障字幕和音视频的同步播放。它的准确度要求比较高,超前或滞后都会严重影响用户体验。现有的时间轴制作技术中,传统制作方式依靠人工听力,并借助一些辅助软件来完成;而基于语音识别的音频分段技术基于语音识别算法。目前,传统的字幕制作方法耗时耗人力,而基于语音识别和机器翻译的字幕制作的准确度有待提本文档来自技高网...

【技术保护点】
1.一种从多音轨视频文件中提取字幕时间轴的方法,其特征在于,其包括以下步骤:/nS1、从视频文件中提取用于语音识别和字幕制作的主音轨和任意一路其它音轨;/nS2、通过静音检测对两路音轨分别做音频分段,并记录每一个音频段的开始和结束时间,得到两组音频时间轴信息;/nS3、判断第二路音轨是否可作为辅助音轨:比较两组时间轴的各个时间信息,若两者差异较大,表明第二路音轨和主音轨不一致,重新选择第二路音轨后重复上述步骤;遍历所有音轨后依旧没有找到合适的辅助音轨则放弃后续优化;若两组时间轴信息基本一致,则选取该第二路音轨为辅助音轨;/nS4、按照主时间轴信息,逐个比对主音轨和辅助音轨的音频段,提取每一个音...

【技术特征摘要】
1.一种从多音轨视频文件中提取字幕时间轴的方法,其特征在于,其包括以下步骤:
S1、从视频文件中提取用于语音识别和字幕制作的主音轨和任意一路其它音轨;
S2、通过静音检测对两路音轨分别做音频分段,并记录每一个音频段的开始和结束时间,得到两组音频时间轴信息;
S3、判断第二路音轨是否可作为辅助音轨:比较两组时间轴的各个时间信息,若两者差异较大,表明第二路音轨和主音轨不一致,重新选择第二路音轨后重复上述步骤;遍历所有音轨后依旧没有找到合适的辅助音轨则放弃后续优化;若两组时间轴信息基本一致,则选取该第二路音轨为辅助音轨;
S4、按照主时间轴信息,逐个比对主音轨和辅助音轨的音频段,提取每一个音频差异开始点和相似开始点,记录对应的开始时间和结束时间,作为语音分段的时间轴;依次遍历所有的音频段后,得到新的语音段和对应的时间轴信息;
S5、进一步优化语音分段的时间轴信息:合并多个时长较短且间隔较短的音频段;分拆时长超过一定时间的音频段;从而得到目标字幕时间轴数据。


2.根据权利要求1所述的一种从多音轨视频文件中提取字幕时间轴的方法,其特征在于,判断第二路音轨是否可作为辅助音轨的详细流程为:
1)、提取主音轨中第一个音频段的时间轴信息:开始时间T0s秒和结束时间T0e秒;
2)、检测第二音轨中是否有开始时间在T0s-0.2秒和T0s+0.2秒之间的时间轴信息,若有则匹配成功计数countS累计加一,否则匹配失败计数countF加一;
3)、重复上述步骤1和步骤2,依次遍历主音轨中后续的音频段时间轴信息,并更新匹配结果计数;
4)、遍历结束后,如果countS/(countS+countF)>0.8,表明两路音轨的匹配度超过8成,该第二路音轨可设定为辅助音轨;反之则提取其他音轨重复步骤2)和3),计算匹配度,直至检测比对完所有的音轨。


3.根据权利要求1所述的一种从多音轨视频文件...

【专利技术属性】
技术研发人员:鲁晓
申请(专利权)人:上海漫存网络科技有限公司
类型:发明
国别省市:上海;31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1