一种字幕编辑方法、装置及计算机存储介质、电子设备制造方法及图纸

技术编号：23315545 阅读：41 留言：0更新日期：2020-02-11 17:57

一种字幕编辑方法、装置及计算机存储介质、电子设备，包括：确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型；根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑，并生成编辑后的句子的时间码；所述短句包括一个或多个词语。采用本申请中的方案，通过对音频做语音识别，实现对语音识别结果进行词语级的标识，使得音频与文本时间码同步，字幕文件具有词语的时码信息，从而实现对字幕文件进行词语级的自动编辑。

A subtitle editing method, device, computer storage medium and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种字幕编辑方法、装置及计算机存储介质、电子设备
本申请涉及节目制作技术，具体地，涉及一种字幕编辑方法、装置及计算机存储介质、电子设备。
技术介绍
目前，在节目后期制作过程中，需要对节目上字幕。字幕生产过程需要对节目素材进行扒词、核对，再根据视频内容上字幕并调整，过程繁琐，存在大量重复劳动。一般的字幕编辑工具，比如SrtEdit，SubtitleEdit，Aegisub等都可以编辑字幕内容和调整字幕时间。但是字幕时间的调整都是纯手工调整，且只能以句子为单位进行字幕编辑，在需要对某句话进行编辑时则无法自动编辑、只能人工调整并且在调整当前位置的词语之后需要人工将后续所有字幕的词语重新调整，比如：当需要将一句字幕拆分为两句、或者因为多字或者漏字的情况需要对字幕文字进行调整，调整后的字幕句子的开始和结束时间都会发生变化，由于每个节目的字幕量很庞大、节目的数量也很庞大，如此人工调整的工作量巨大。现有技术中存在的问题：目前只能以句子为单位编辑字幕，无法实现精确到词语级别的字幕编辑。专利技术...

【技术保护点】
1.一种字幕编辑方法，其特征在于，包括：/n确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型；/n根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑，并生成编辑后的句子的时间码；所述短句包括一个或多个词语。/n

【技术特征摘要】
1.一种字幕编辑方法，其特征在于，包括：
确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以及音频文件对应的文稿生成的包括每个词语的时间戳的字幕文件，所述编辑请求包括所述字幕文件中需要编辑的位置以及编辑类型；
根据所述需要编辑的位置以及编辑类型对所述位置前后的短句进行编辑，并生成编辑后的句子的时间码；所述短句包括一个或多个词语。

2.根据权利要求1所述的方法，其特征在于，所述字幕文件的生成过程，包括：
确定音频文件以及所述音频文件对应的文稿；
将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型；所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件。

3.根据权利要求2所述的方法，其特征在于，所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的字幕文件，包括：
所述语音识别深度神经网络模型将所述音频文件的每帧语音识别成状态序列；
根据所述音频文件中每帧语音的状态序列得到多个音素；
根据所述多个音素生成一个或多个单词；
将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在时间轴上的相对时间位置；
根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

4.根据权利要求1所述的方法，其特征在于，所述编辑类型为断开，所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑，并生成编辑后的时间码，包括：
根据所述需要编辑的位置，确定所述位置前一词语对应的时间码以及所述位置后一词语对应的时间码，并将所述位置所在的句子拆分生成第一短句和第二短句；
根据所述位置前一词语对应的时间码生成所述第一短句的时间码，根据所述位置后一词语对应的时间码生成所述第二短句的时间码。

5.根据权利要求4所述的方法，其特征在于，所述根据所述位置后一词语对应的时间码生成所述第二短句的时间码，包括：
根据所述位置后一词语对应的时间码以及预设停顿时间，确定所述第二短句的起始时间以及所述第二短句内其他词语的时间码；
根据所述第二短句的起始时间以及所述第二短句内其他词语对应的时间码，确定所述第二短句的结束时间。

6.根据权利要求1所述的方法，其特征在于，所述编辑类型为合并，所述根据所述需要编辑的位置以及编辑类型对所述位置之前的第一短句以及所述位置之后的第二短句进行编辑，并生成编辑后的时间码，包括：
根据所述需要编辑的位置，确定所述位置前一词语所在的第一短句对应的时间码以及所述位置后一词语所在的第二短句对应的时间码，将所述第一短句和第二短句合并；
根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一短句的起始时间码和所述第二短句的结束时间码生成所述合并后的句子的时间码，包括：
将所述第一短句的起始时间码作为合并后的句子的起始时间码；
根据预设停顿时间调整所述第二短句内每个词语对应的时间码，并将调整后的所述第二短句的最后一个词语的时间码作为合并后的句子的结束时间码。

8.根据权利要求1所述的方法，其特征在于，进一步包括：
在编辑完所述字幕文件之后，按照所述编辑后的字幕文件中每个短句对应的时间码输出所述编辑后的字幕文件中的短句。

9.一种字幕编辑装置，其特征在于，包括：
请求模块，用于确定用户对字幕文件的编辑请求；所述字幕文件为根据音频文件以...

【专利技术属性】
技术研发人员：蔡贺，崔建伟，黄建新，张歆，黄伟峰，朱米春，杜伟，王一韩，闫磊，钱岳，
申请(专利权)人：中央电视台，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人