一种节目素材制作方法、装置及计算机存储介质、电子设备制造方法及图纸

技术编号：23102082 阅读：26 留言：0更新日期：2020-01-14 21:11

一种节目素材制作方法、装置及计算机存储介质、电子设备，包括：确定节目的音频文件；所述节目至少包括一个角色；根据所述音频文件确定每段语音片段的角色信息，并将所述音频文件转写得到带有时间码信息的文字；将所述带有时间码信息的文字与所述角色信息匹配；根据所述文字和角色信息确定素材内容；根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑，得到节目素材。采用本申请中的方案，可以实现基于声纹识别的访谈类电视节目的自动化角色识别和素材剪辑，生产制作效率与传统流程相比有非常大的提升，简化了视频节目的素材挑选和制作过程。

A program material production method, device, computer storage medium and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种节目素材制作方法、装置及计算机存储介质、电子设备
本申请涉及节目制作技术，具体地，涉及一种节目素材制作方法、装置及计算机存储介质、电子设备。
技术介绍
目前，对于访谈类节目通常会有主持人和几个嘉宾之间的问题讨论或谈话，在电视台节目的制作过程中，需要对谈话内容进行录制。在后期进行节目制作时，需要了解嘉宾的谈话内容，并且需要区分出是哪个嘉宾的谈话内容，从而选择一些比较重要或比较有价值的内容进行后期编辑。现有的做法是，在谈话内容录制完成后，通过人工听写、记录下所有的谈话内容并人工标记不同的人物角色，然后通过查看文本进行构思，决定采用哪些角色的哪些谈话内容进行后期编辑作为素材，再在非编系统中人工定位找到相应内容的位置进行剪辑，做成节目。可以看出，整个过程非常繁琐且工作量巨大，一般需要数倍于节目的时间才能完成素材的挑选。
技术实现思路
本申请实施例中提供了一种节目素材制作方法、装置及计算机存储介质、电子设备，以解决上述技术问题。根据本申请实施例的第一个方面，提供了一种节目素材制作方法，包括：确定节目的音频文件；所述节目至少包括一个角色；根据所述音频文件确定每段语音片段的角色信息，并将所述音频文件转写得到带有时间码信息的文字；将所述带有时间码信息的文字与所述角色信息匹配；根据所述文字和角色信息确定素材内容；根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑，得到节目素材。根据本申请实施例的第二个方面，提供了一种节目素材制作装置，...

【技术保护点】
1.一种节目素材制作方法，其特征在于，包括：/n确定节目的音频文件；所述节目至少包括一个角色；/n根据所述音频文件确定每段语音片段的角色信息，并将所述音频文件转写得到带有时间码信息的文字；/n将所述带有时间码信息的文字与所述角色信息匹配；/n根据所述文字和角色信息确定素材内容；/n根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑，得到节目素材。/n

【技术特征摘要】
1.一种节目素材制作方法，其特征在于，包括：
确定节目的音频文件；所述节目至少包括一个角色；
根据所述音频文件确定每段语音片段的角色信息，并将所述音频文件转写得到带有时间码信息的文字；
将所述带有时间码信息的文字与所述角色信息匹配；
根据所述文字和角色信息确定素材内容；
根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑，得到节目素材。

2.根据权利要求1所述的方法，其特征在于，所述根据音频文件确定每段语音片段的角色信息，包括：
根据所述音频文件提取所述音频文件中每个音频片段的声纹ivector特征；
根据所述ivector特征与所述预先建立的声纹库进行匹配；所述声纹库中包括ivector特征与角色信息的对应关系；
根据所述音频片段的ivector特征与声纹库中ivector特征的相似度，确定所述音频片段的角色信息为所述声纹库中所述ivector特征对应的角色信息。

3.根据权利要求2所述的方法，其特征在于，所述根据音频文件提取所述音频文件中每个音频片段的声纹ivector特征，包括：
按照所述音频文件的句子结束位置和/或音频停顿位置将所述音频文件拆分为多个第一音频片段；每个第一音频片段包括多个第二音频片段；
提取每个第一音频片段中的任意部分音频的声纹ivector特征；
将所述第一音频片段中的任意部分音频的ivector特征作为该第一音频片段的ivector特征。

4.根据权利要求2所述的方法，其特征在于，所述声纹库的建立过程，包括：
采集若干角色的任意音频片段；
对所述音频片段的角色进行标注，并提取所述音频片段的声纹特征；
将所述声纹特征以及对应的角色信息存储得到声纹库。

5.根据权利要求1所述的方法，其特征在于，所述将音频文件转写得到带有时间码信息的文字，包括：
确定所述音频文件对应的文稿；
将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型；
所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的文字。

6.根据权利要求5所述的方法，其特征在于，所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的文字，包括：
所述语音识别深度神经网络模型将所述音频文件的每帧语音识别成状态序列；
根据所述音频文件中每帧语音的状态序列得到多个音素；
根据所述多个音素生成一个或多个单词；
将所述一个或多个单词与每帧语音内容匹配，得到每个词语对应的语音片段在时间轴上的相对时间位置；
根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。

7.一种节目素材制作装置，其特征在于，包括：
文件确定模块，用于确定节目的音频文件；所述节目至少包括一个角色；
角色确定模块，用于根据所述音频文件确定每段语音片段的角色信息；
文字转写模块，用于将所述音频文件转写得到带...

【专利技术属性】
技术研发人员：黄建新，崔建伟，蔡贺，张歆，黄伟峰，朱米春，杜伟，王一韩，闫磊，钱岳，
申请(专利权)人：中央电视台，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人