一种短音频计算机辅助生产方法及系统技术方案

技术编号:19830277 阅读:32 留言:0更新日期:2018-12-19 17:19
本发明专利技术公开了一种短音频计算机辅助生产方法及系统。该方法包括:计算待处理音频节目在不同粒度的时间片段上的多维节目内容特征信息;对于音频节目的各时间片段对应的所述多维节目内容特征信息进行融合;根据融合后的所述多维节目内容特征信息以及对应的时间片段对待处理音频节目进行图形化展示,供剪辑人员参考进行短音频的剪辑、收听及确认。本发明专利技术提供的短音频辅助生产方法及系统,能够辅助剪辑人员快速生产需要的短音频,提高了短音频生产的效率,并降低生产成本;同时能够降低人工剪辑短音频带来的遗漏优质内容的概率。

【技术实现步骤摘要】
一种短音频计算机辅助生产方法及系统
本专利技术公开了一种短音频计算机辅助生产方法及系统,涉及短音频剪辑领域。通过本专利技术提供方法及系统,能够帮助音频剪辑人员快速找到感兴趣的音频片段进行播放、剪辑,提高短音频生产的效率;同时降低人工剪辑短音频带来的生产成本以及遗漏优质内容的概率。
技术介绍
完整广播节目的音频流,通常包含各种类型的音频内容,如广告、音乐、语音等。短音频往往是完整节目中具有优质内容的某一片段。现有的广播短音频生产,主要是通过人工收听广播节目音频流,分析节目内容,从中剪辑出若干段短音频并给予短音频合适的标签、标题和摘要。人工提取短音频的主要流程有:节目收听、优质内容发现、剪辑及标签化描述。节目收听是指人工收听广播节目内容;优质内容发现指根据预定的内容审核规则,确定出待提取内容的时间信息;剪辑及标签化描述指记录短音频在完整节目中的时间信息,以及根据短音频内容给对应短音频相应的标签和描述。人工收听广播节目导致短音频产出效率低下。完整收听一档广播节目,需要花费小时级的时间。面对海量的广播节目,人耳收听不能满足广播节目的全面内容分析。由于需要投入大量人工,才能分析、提取出短音频,导致短音频的平均产出成本较高,同时在收听过程中不能在同一时间点直观进行音频内容的比较,收听过程中的播放拖动等方式,易造成节目内容遗漏,从而增加了遗漏优质内容的概率。可见,现有的人工广播短音频生产技术,具有效率低、成本高、易遗漏优质内容等缺点。
技术实现思路
为了解决现有的短音频生产中存在的不足,本专利技术提供一种短音频计算机辅助生产方法,该方法具体包括:基于多种算法及参数、提取待处理音频节目在不同粒度的时间片段上的多维节目内容特征信息;对音频节目不同时间点位对应的所述多维节目内容特征信息在进行融合;根据融合后的所述多维节目内容特征信息以及对应的时间片段对待处理音频节目进行图形化展示,供剪辑人员参考进行短音频的剪辑、收听及确认。进一步地、所述多维节目内容特征信息包括:音频类型(例如音乐、纯语音、有音乐背景的语音、外场语音等不同类型),以及进一步细分的特征如音乐具体信息,广告及重复片段,语音片段对应文字信息,对语音片段对应文字信息提取的关键词,说话人ID,说话人情绪,说话人性别和年龄识别,对语音识别结果提取主题和文本摘要以及上述特征各自对应音频片段的时间点位。进一步地、其中对于音频节目不同时间点位对应的所述多维节目内容特征信息进行融合,具体包括:处理相互矛盾的特征指标,去除与广播节目的播音标准显著背离的特征指标,将逻辑上相互验证的特征进行信息融合,获取最终的内容特征。通过将多维特征进行融合后,音频每个时间点位上的对应的特征将在逻辑上不会产生冲突,而且能比较好的代表所述音频节目在该点位上主要的音频信息。进一步地,本专利技术还提供一种短音频计算机辅助生产系统,该系统包括以下组成部分:特征分析层,用于根据多种算法及参数、分析、提取待处理音频节目在不同粒度的时间片段上的多维节目内容特征信息;特征聚合层,根据音频节目时间点位将对应的所述多维节目内容特征信息进行融合,输出音频时间段以及融合后的内容特征;特征检索层,用于构建音频内容特征的索引结构,为特征检索和过滤提供支持;编辑操作界面,用于根据融合后的所述多维节目内容特征信息以及对应的时间片段对待处理音频节目进行图形化展示,供剪辑人员参考进行短音频的剪辑、过滤、收听,并由编辑人员确认生成短音频及描述信息。上述各组成部分可以实现在同一台计算机上,也可以分别实现在不同的计算机上、各计算机可以过网络进行协作。进一步地,在该短音频辅助生产系统,还结合数据库服务模块,用于对各个组成部分输出或者需要使用的数据进行存储。所述数据库服务模块可以实现为分布式数据库的形式。附图说明图1为本专利技术提供的短音频辅助生产方法流程图;图2为本专利技术提供的短音频辅助生产系统示意图。具体实施方式为了使本专利技术所解决的技术问题、技术方案以及有益效果更加清楚明白,以下结合附图对本专利技术进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。参照附图1,本专利技术提供一种短音频计算机辅助生产方法,该方法包括以下步骤:a、基于多种算法及参数、提取待处理音频节目在不同粒度的时间片段上的多维节目内容特征信息;b、对音频节目不同时间点位对应的所述多维节目内容特征信息在进行融合,输出音频时间片段以及融合后的音频内容特征;c、根据融合后的音频内容特征以及对应的时间片段对待处理音频节目进行图形化展示,供剪辑人员参考进行短音频的剪辑、过滤、收听,由编辑人员确认生成短音频及描述信息。其中,步骤a中提取待处理音频节目在不同粒度的时间片段上的多维节目内容特征信息,具体为:针对一期音频节目,在节目的不同粒度的时间片段上,分别计算多种节目内容特征。这些节目内容特征将用来进行不同维度的节目内容分析。本方法中计算的节目内容的特征包括但不限于以下所列特征:音频类型:将音频分成音乐、纯语音、有音乐背景的语音、外场语音等不同类型,通过音频类型分类算法,识别出节目音频中包含的各种不同类型的音频片段及其对应的时间信息。音乐具体信息:识别节目音频中包含音乐的具体信息,如歌曲信息、乐器信息、节奏、流派等,并输出节目音频中包含歌曲的信息:歌曲起始和结束的时间点、歌曲自身信息(歌手、流派、发行时间、节奏等)。广告及重复片段:通过声纹算法识别出广播节目中的广告、以及重复播放的节目片段的时间点位。语音片段对应文本信息、以及文本信息对应的关键词:识别节目音频中的语音并将其转为文字,输出节目音频中语音识别的信息包括:语音的起始和结束时间,识别出的文字等。对基于语音识别算法输出的文字进行关键词提取,建立关键词和节目音频的时间对应关系。语音片段的主题和文本摘要:对语音识别结果,进行主题提取和文本摘要,输出主题提取和文本摘要信息。语音片段的说话人:基于已经建立好的说话人数据集和说话人识别模型,识别节目音频中不同时间段的语音是谁说的。说话人识别结果包括语音的起始和结束时间、对应说话人ID等。说话人性别和年龄:基于预先建立好的说话人性别和年龄数据集以及相应的识别算法,输出当前语音时段,说话人的性别以及预测的年龄信息。说话人情绪:基于语音情绪识别算法输出当前语音时段以及说话人情绪结果。步骤b中对于音频节目不同时间片段对应的所述多维节目内容特征信息进行融合,具体包括:处理相互矛盾的特征指标,去除与广播节目的播音标准显著背离的特征指标,将逻辑上相互验证的特征进行信息融合,获取最终的内容特征。在实际的多维音频节目内容特征提取过程中,往往提取的特征之间具有逻辑上的冲突,需要将相互矛盾的特征进行择优处理以保持提取的特征之间的合理性。例如:音频类型识别为人声(置信度0.93),音乐识别结果识别为某一歌曲(置信度0.55)。丢弃音乐识别结果。说话人识别结果为说话人A(置信度0.80),说话人性别识别结果为女(置信度0.95),而实际A的性别信息为男。丢弃说话人识别结果。对于此类矛盾的特征指标,建立比对指标列表。当检测出矛盾指标时,选择置信度高的识别结果,丢弃对应的矛盾指标。在进行多维节目内容特征信息融合时还需要去除与广播节目的播音标准显著背离的特征指标。例如:语音识别结果(计算出语速为20字本文档来自技高网...

【技术保护点】
1.一种短音频计算机辅助生产方法,该方法包括:a、基于多种算法及参数、分析并提取待处理音频节目在不同粒度的时间片段上的多维节目内容特征信息;b、根据音频节目时间点位将对应的所述多维节目内容特征信息进行融合,输出音频时间片段以及融合后的音频内容特征;c、根据融合后的音频内容特征以及对应的时间片段对待处理音频节目进行图形化展示,供剪辑人员参考进行短音频的剪辑、过滤、收听,并由编辑人员确认或者编辑以产生的短音频及描述信息。

【技术特征摘要】
1.一种短音频计算机辅助生产方法,该方法包括:a、基于多种算法及参数、分析并提取待处理音频节目在不同粒度的时间片段上的多维节目内容特征信息;b、根据音频节目时间点位将对应的所述多维节目内容特征信息进行融合,输出音频时间片段以及融合后的音频内容特征;c、根据融合后的音频内容特征以及对应的时间片段对待处理音频节目进行图形化展示,供剪辑人员参考进行短音频的剪辑、过滤、收听,并由编辑人员确认或者编辑以产生的短音频及描述信息。2.如权利要求1所述的方法,其中所述多维节目内容特征信息包括:音频类型,音乐具体信息,广告及重复片段,语音片段对应文本信息以及文本信息对应的关键词,语音片段的主题和文本摘要,语音片段的说话人,说话人的情绪,说话人性别和年龄识别以及上述特征各自对应音频片段的时间点位。3.如权利要求1所述的方法,其中对于音频节目不同时间片段对应的所述多维节目内容特征信息进行融合,具体包括:处理相互矛盾的特征指标,去除与广播节目的播音标准显著背离的特征指标,将逻辑上相互验证的特征进行信息融合。4.如权利要求1所述的方法,其中对待处理音频节目进行图形化展示,具体还包括:短音频剪辑人员可自定义特征过滤条件,执行过滤后,节目内容特征展示界面仅呈现符合过滤条件的节目时段进行特征展示。5.如权利要求1-4中任一项所述的方法,其中对待处理音频节目进行图形化展示,辅助剪辑人员进行短音频的剪辑、收听及确认,具体包括:将待处理节音频节目不同时间段对应的融合后音频内容特征进行标签化描述,并在节目内容特征展示界面上进行绘制和展示;剪辑人员可以通过点击对应的标签播放待处理音频节目的相应时间片段,进行收听、确认音频内容;剪辑人员参考所述图像通过提供的剪辑工具对待处理音频节目进行短音频剪辑;同时剪辑人员还可以编辑或直接确认短音频的标题、摘要等描述性内容。6.一种短音频计算机辅助生产系统,该系统包括以下组成部分:特征分析层,用于根据多种算法及参数、分析、提取待处理音频节目在不同粒度的时间片段上的多维节目内容特征信息;特征聚合层,根据音频节目时间点位将对应的所述多维节目内容特征信息进行融合,输出音频...

【专利技术属性】
技术研发人员:范晓安胡蓓蓓
申请(专利权)人:阿基米德上海传媒有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1