当前位置: 首页 > 专利查询>中央电视台专利>正文

一种节目素材制作方法、装置及计算机存储介质、电子设备制造方法及图纸

技术编号:23102082 阅读:26 留言:0更新日期:2020-01-14 21:11
一种节目素材制作方法、装置及计算机存储介质、电子设备,包括:确定节目的音频文件;所述节目至少包括一个角色;根据所述音频文件确定每段语音片段的角色信息,并将所述音频文件转写得到带有时间码信息的文字;将所述带有时间码信息的文字与所述角色信息匹配;根据所述文字和角色信息确定素材内容;根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。采用本申请中的方案,可以实现基于声纹识别的访谈类电视节目的自动化角色识别和素材剪辑,生产制作效率与传统流程相比有非常大的提升,简化了视频节目的素材挑选和制作过程。

A program material production method, device, computer storage medium and electronic equipment

【技术实现步骤摘要】
一种节目素材制作方法、装置及计算机存储介质、电子设备
本申请涉及节目制作技术,具体地,涉及一种节目素材制作方法、装置及计算机存储介质、电子设备。
技术介绍
目前,对于访谈类节目通常会有主持人和几个嘉宾之间的问题讨论或谈话,在电视台节目的制作过程中,需要对谈话内容进行录制。在后期进行节目制作时,需要了解嘉宾的谈话内容,并且需要区分出是哪个嘉宾的谈话内容,从而选择一些比较重要或比较有价值的内容进行后期编辑。现有的做法是,在谈话内容录制完成后,通过人工听写、记录下所有的谈话内容并人工标记不同的人物角色,然后通过查看文本进行构思,决定采用哪些角色的哪些谈话内容进行后期编辑作为素材,再在非编系统中人工定位找到相应内容的位置进行剪辑,做成节目。可以看出,整个过程非常繁琐且工作量巨大,一般需要数倍于节目的时间才能完成素材的挑选。
技术实现思路
本申请实施例中提供了一种节目素材制作方法、装置及计算机存储介质、电子设备,以解决上述技术问题。根据本申请实施例的第一个方面,提供了一种节目素材制作方法,包括:确定节目的音频文件;所述节目至少包括一个角色;根据所述音频文件确定每段语音片段的角色信息,并将所述音频文件转写得到带有时间码信息的文字;将所述带有时间码信息的文字与所述角色信息匹配;根据所述文字和角色信息确定素材内容;根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。根据本申请实施例的第二个方面,提供了一种节目素材制作装置,包括:文件确定模块,用于确定节目的音频文件;所述节目至少包括一个角色;角色确定模块,用于根据所述音频文件确定每段语音片段的角色信息;文字转写模块,用于将所述音频文件转写得到带有时间码信息的文字;匹配模块,用于将所述带有时间码信息的文字与所述角色信息匹配;素材选定模块,用于根据所述文字和角色信息确定素材内容;剪辑模块,用于根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。根据本申请实施例的第三个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述节目素材制作方法的步骤。根据本申请实施例的第四个方面,提供了一种电子设备,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如上所述的节目素材制作方法。采用本申请实施例中提供的节目素材制作方法、装置及计算机存储介质、电子设备,可以实现基于声纹识别的访谈类电视节目的自动化角色识别和素材剪辑,生产制作效率与传统流程相比有非常大的提升,简化了视频节目的素材挑选和制作过程。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示出了本申请实施例一中节目素材制作方法实施的流程示意图;图2示出了本申请实施例二中节目素材制作装置的结构示意图;图3示出了本申请实施例四中电子设备的结构示意图。具体实施方式针对现有技术存在的问题,本申请实施例中提供了一种通过智能语音声纹识别技术,实现访谈类节目的语音转写和角色识别的技术方案,简化了视频节目内容素材挑选和制作流程,并且提高了节目制作效率。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。实施例一图1示出了本申请实施例一中节目素材制作方法实施的流程示意图。如图所示,所述节目素材制作方法包括:步骤101、确定节目的音频文件;所述节目至少包括一个角色;步骤102、根据所述音频文件确定每段语音片段的角色信息,并将所述音频文件转写得到带有时间码信息的文字;步骤103、将所述带有时间码信息的文字与所述角色信息匹配;步骤104、根据所述文字和角色信息确定素材内容;步骤105、根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。在一种实施方式中,所述确定节目的音频文件,包括:通过节目现场录制得到所述节目的音频文件。在一种实施方式中,所述确定节目的音频文件,包括:从节目的视频文件中提取得到所述节目的音频文件。所述节目可以包括一个或多个角色,所述节目的音频文件中可以包括所述一个或多个角色的音频片段。每个角色的音频片段可以包括一段或多段音频片段(或称语音片段)。本申请实施例中根据音频文件确定每段语音片段的角色信息,并且将所述音频文件转写为所述音频文件对应的文字,所述音频文件对应的文字带有时间码(或简称时码)信息。将所述文字与角色信息匹配,即,确定每个文字或每段文字对应的角色。例如:第一句话是角色A所说,第二句话是角色B所说等等。然后,本申请实施例可以根据文字以及所述文字对应的角色信息确定素材内容,所述素材内容可以为某段文字或某几段文字。又由于每个或每段文字是带有时间码信息的,所以所述素材内容也带有时间码信息。本申请实施例可以根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,从而得到节目素材。例如:音频文件对应的文字包括五段文字,确定素材内容为第1段文字、第3段文字和第4段文字,本申请实施例可以根据第1段文字、第3段文字和第4段文字分别带有的时间码信息定位到视频文件中的相应位置,从而剪辑视频文件中第1段文字、第3段文字和第4段文字分别对应的视频片段,将视频文件中第1段文字、第3段文字和第4段文字分别对应的视频片段确定为节目素材。具体实施时,音频文件可以属于第一节目,最终剪辑得到的素材可以用于第二节目。采用本申请实施例中提供的节目素材制作方法,可以实现基于声纹识别的访谈类电视节目的自动化角色识别和素材剪辑,生产制作效率与传统流程相比有非常大的提升,简化了视频节目的素材挑选和制作过程。在一种实施方式中,所述根据音频文件确定每段语音片段的角色信息,包括:根据所述音频文件提取所述音频文件中每个音频片段的声纹ivector特征;根据所述ivector特征与所述预先建立的声纹库进行匹配;所述声纹库中包括ivector特征与角色信息的对应关系;根据所述音频片段的ivector特征与声纹库中ivector特征的相似度,确定所述音频片段的角色信息为所述声纹库中所述ivector特征对应的角色信息。具体实施时,本申请实施例根据音频文件确定所述音频文件中本文档来自技高网...

【技术保护点】
1.一种节目素材制作方法,其特征在于,包括:/n确定节目的音频文件;所述节目至少包括一个角色;/n根据所述音频文件确定每段语音片段的角色信息,并将所述音频文件转写得到带有时间码信息的文字;/n将所述带有时间码信息的文字与所述角色信息匹配;/n根据所述文字和角色信息确定素材内容;/n根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。/n

【技术特征摘要】
1.一种节目素材制作方法,其特征在于,包括:
确定节目的音频文件;所述节目至少包括一个角色;
根据所述音频文件确定每段语音片段的角色信息,并将所述音频文件转写得到带有时间码信息的文字;
将所述带有时间码信息的文字与所述角色信息匹配;
根据所述文字和角色信息确定素材内容;
根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。


2.根据权利要求1所述的方法,其特征在于,所述根据音频文件确定每段语音片段的角色信息,包括:
根据所述音频文件提取所述音频文件中每个音频片段的声纹ivector特征;
根据所述ivector特征与所述预先建立的声纹库进行匹配;所述声纹库中包括ivector特征与角色信息的对应关系;
根据所述音频片段的ivector特征与声纹库中ivector特征的相似度,确定所述音频片段的角色信息为所述声纹库中所述ivector特征对应的角色信息。


3.根据权利要求2所述的方法,其特征在于,所述根据音频文件提取所述音频文件中每个音频片段的声纹ivector特征,包括:
按照所述音频文件的句子结束位置和/或音频停顿位置将所述音频文件拆分为多个第一音频片段;每个第一音频片段包括多个第二音频片段;
提取每个第一音频片段中的任意部分音频的声纹ivector特征;
将所述第一音频片段中的任意部分音频的ivector特征作为该第一音频片段的ivector特征。


4.根据权利要求2所述的方法,其特征在于,所述声纹库的建立过程,包括:
采集若干角色的任意音频片段;
对所述音频片段的角色进行标注,并提取所述音频片段的声纹特征;
将所述声纹特征以及对应的角色信息存储得到声纹库。


5.根据权利要求1所述的方法,其特征在于,所述将音频文件转写得到带有时间码信息的文字,包括:
确定所述音频文件对应的文稿;
将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型;
所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的文字。


6.根据权利要求5所述的方法,其特征在于,所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的文字,包括:
所述语音识别深度神经网络模型将所述音频文件的每帧语音识别成状态序列;
根据所述音频文件中每帧语音的状态序列得到多个音素;
根据所述多个音素生成一个或多个单词;
将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在时间轴上的相对时间位置;
根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。


7.一种节目素材制作装置,其特征在于,包括:
文件确定模块,用于确定节目的音频文件;所述节目至少包括一个角色;
角色确定模块,用于根据所述音频文件确定每段语音片段的角色信息;
文字转写模块,用于将所述音频文件转写得到带...

【专利技术属性】
技术研发人员:黄建新崔建伟蔡贺张歆黄伟峰朱米春杜伟王一韩闫磊钱岳
申请(专利权)人:中央电视台
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1