台词同步字幕的制作方法技术

技术编号:11408514 阅读:71 留言:0更新日期:2015-05-06 07:42
本发明专利技术涉及自然语言处理技术领域,公开了一种台词同步字幕的制作方法,包括步骤:I、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的开始和结束时间;Ⅱ、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;Ⅲ、用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件。本发明专利技术能自动确定绝大部分台词字幕段的开始和结束时间,减少了人力资源代价,台词字母的准确度高,极大提高了视频字幕制作的效率。

【技术实现步骤摘要】
台词同步字幕的制作方法
本专利技术涉及自然语言处理
,尤其涉及一种台词同步字幕的制作方法。
技术介绍
台词同步字幕的制作过程中,主要存在两种情况:一是只有音视频文件,没有既定的台词剧本,需要通过人工听记音视频中的人物对话或背景台词得到台词剧本;二是有音视频文件和台词剧本。在这两种情况下,都需要在制作同步字幕。制作同步字幕的关键环节是为台词剧本中的每句台词字幕播放确定准确的开始和结束时间。目前,确定字幕播放的开始和结束时间需要通过人工逐一标记的方式,处理效率低,特别是浪费时间和人力资源。因此,希望能够设计一种自动的方法和环境,产生比较准确的字幕文件,以尽可能的减少人工干预和审校的工作量。
技术实现思路
本专利技术所要解决的技术问题是提供一种台词同步字幕的制作方法,快速地生成台词同步字幕文件,克服现有技术的效率低缺陷。为解决上述技术问题,本专利技术提供一种台词同步字幕的制作方法,包括如下步骤:Ⅰ、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的开始和结束时间;所述字幕段对应一句台词音频,所述字幕段的开始和结束时间即为对应台词句音频的起始和结束时间;Ⅱ、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;Ⅲ、根据台词剧本中的台词句与初始字幕文件中字幕段的对应关系,用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件。更进一步的,对中间字幕文件中不准确或没有的对应关系的台词,进行标记。以便后续有针对性的进行人工处理和审校,得到最终字幕文件。更优化的方案是,在所述步骤ⅰ之前,包括以下步骤:将台词剧本中的词进行规范化表示,规则包括如下:对数字用发音词替换原词;对复数词增加原词作为候选;具有形态的词增加原词作为候选;具有连接关系的词增加各种合并或分离词作为候选;得到规范化台词剧本。用规范化台词剧本替代步骤ⅰ中的台词剧本与所述初始字幕文件进行对照。对于大多数音视频来说,语音识别的结果错误率相对而言比较高,因此很难有相同的句子出现。句子之间的对应关系,主要根据两个句子中包含的相同词和连续相同词来确定。所述将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;包括以下步骤:ⅰ、逐句读取台词剧本中的台词句,在所述初始字幕文件中查找与该台词句包含词汇相同的相同词,每个所述相同词标记有字幕段的序号;建立每个台词句与所述相同词及其字幕段序号的映射表;ⅱ、根据连续相同词的数量大小进行第一次排序;得到具有先后顺序的相同词与台词句的对应关系表;ⅲ、设置所述相同词与台词句的初始的对应关系集合为空,即:Q,从对应关系表的第一个对应关系开始,取第一个对应关系放入对应关系集合中,然后,循环进行下列操作:①顺序取一个对应关系,判断该对应关系是否与对应关系集合中的已有的确认对应关系冲突,判断方法为:对应关系(a)与已有的确认对应关系冲突,是指、满足如下条件:或者,其中表示台词剧本的台词句序号,表示初始字幕文件的字幕段序号;②如果不存在冲突,则确认该对应关系,将该对应关系加入对应关系集合中;并在所述对应关系表中删除包含该台词句序号的其它对应关系;③如果存在冲突,则直接删除该对应关系。更优化的,在步骤ⅱ中,如果连续相同部分单词数量相同,则按长度进行二次排序。所述根据用台词剧本中的台词句与初始字幕文件中字幕段的对应关系,用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件,包括以下步骤:根据得到的对应关系集合,检查台词剧本中的相邻序号的台词句是否对应到同一个初始字幕段序号,如果相同,则将该相邻序号的台词句合并,然后将该初始字幕段的起止时间设置合并后的字幕段的起止时间;否则,直接取该初始字幕段序号的开始和结束时间作为新字幕段的开始和结束时间;对每个设置开始和结束时间的新字幕段进行序号设置,得到中间字幕文件。本专利技术能自动确定绝大部分台词字幕段的开始和结束时间,减少了人力资源代价,台词字母的准确度高,极大提高了视频字幕制作的效率。附图说明下面结合附图和具体实施方式对本专利技术的技术方案作进一步具体说明。图1为本专利技术的技术流程及结构示意图。具体实施方式结合图1所示,本专利技术提供一种台词同步字幕的制作方法,包括如下步骤:Ⅰ、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的开始和结束时间;所述字幕段对应一句台词音频,所述字幕段的开始和结束时间即为对应台词句音频的起止时间;Ⅱ、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;Ⅲ、根据用台词剧本中的台词句与初始字幕文件中字幕段的对应关系,用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件。为充分说明本专利技术,下面结合英语字幕为例,进一步详细描述本专利技术的技术方案。通过语音识别产生的初始字幕文件如表格1所示。第一列为序号,第二列为时间轴,表明开始时间和结束时间,第三列为语音识别得到的文本内容。表格1初始字幕文件示例台词剧本内容如表格2所示。将初始字幕文件和台词剧本进行融合处理。融合处理的具体实现方法和步骤主要有:1.将台词剧本中的词进行规范化表示,特别是对数字、复数、形态和连接等形式,并提供可能的候选词;一般规则如下:表格1规范化规则将台词剧本示例进行规范化表示后,得到的结果如表格3所示。其中第一列为序号,形式包含括号,第二列中一行为原始台词剧本,其下一行为规范化处理并添加候选词后的结果。原始台词剧本后是涉及到的处理形式标记,分别用①、②、③、④表示对应的数字、复数、形态和连接的规范化处理。表格2台词剧本规范化处理2.将台词剧本中的每个句子,对应到初始字幕文件中的字幕段;句子之间的对应关系,主要根据句子中包含的相同词确定。对于大多数视频来说,语音识别的结果错误率相对而言比较高,因此很难有相同的句子出现。通过相同词和连续相同词来确定这种对应关系。逐句处理台词剧本中的句子和初始字幕文件中文本使用的相同词,可得到如表格5所示结果,其中“/”表示这些词是分离的,并非连续相同词。表格3句子对应关系及相同数据根据连续相同部分单词多少进行第一次排序;如果连续相同部分单词数量相同,则按长度进行二次排序。可得如表格6所示结果:表格4台词剧本与初始字幕文件句子中相同信息排序设置初始的对应关系集合为空,即:循环步骤[1]、[2]、[3]进行下列操作:[1]顺序取一个对应关系,判断该对应关系是否会与集合Q中的已有的确认对应关系冲突。对应关系(a)与已有的确认对应关系冲突,是指满足如下条件:或者其中表示台词剧本序号,表示初始字幕文件序号。[2]如果不存在冲突,则确认该对应关系,并将其加入集合中。对于相同信息排序中的第一个对应关系,确认该对应关系后,结果如表格7所示。表格5确认对应关系和对应关系集合对于该确认的对应关系“2peoplefromothertimes(2)”,其中包含台词句序号(2)。如果在对应关系表剩余的对应关系中还存在包含台词句序号(2)的对应关系,则删除这些对应关系。不本文档来自技高网...

【技术保护点】
一种台词同步字幕的制作方法,其特征在于,包括如下步骤:Ⅰ、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的开始和结束时间;所述字幕段对应一句台词音频,所述字幕段的开始和结束时间即为对应台词句音频的起始和结束时间;Ⅱ、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;Ⅲ、根据台词剧本中的台词句与初始字幕文件中字幕段的对应关系,用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件。

【技术特征摘要】
1.一种台词同步字幕的制作方法,其特征在于,包括如下步骤:Ⅰ、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的开始和结束时间;所述字幕段对应一句台词音频,所述字幕段的开始和结束时间即为对应台词句音频的起始和结束时间;Ⅱ、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;Ⅲ、根据台词剧本中的台词句与初始字幕文件中字幕段的对应关系,用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件;所述将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系,包括以下步骤:ⅰ、逐句读取台词剧本中的台词句,在所述初始字幕文件中查找与该台词句包含词汇相同的相同词,每个所述相同词标记有字幕段的序号;建立每个台词句与所述相同词及其字幕段序号的映射表;ⅱ、根据连续相同词的数量大小进行第一次排序,得到具有先后顺序的相同词与台词句的对应关系表;ⅲ、设置所述相同词与台词句的初始的对应关系集合Q为空,即:从对应关系表的第一个对应关系开始,取第一个对应关系放入对应关系集合Q中,然后,循环进行下列操作:①顺序取一个对应关系,判断该对应关系是否与对应关系集合Q中的已有的确认对应关系冲突,判断方法为:对应关系(a)-b与已有的确认对应关系冲突,是指(a)、b满足如下条件:或者,其中(a)表示台词剧本的台...

【专利技术属性】
技术研发人员:杜南山江潮
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1