模型生成方法、视频标记方法、装置、终端及存储介质制造方法及图纸

技术编号:21552830 阅读:31 留言:0更新日期:2019-07-07 00:41
本发明专利技术提供了一种模型生成方法、视频标记方法、装置、终端及计算机可读存储介质,所述模型生成方法包括:提取样本视频数据集中各样本视频数据对应的样本音频数据;将所述样本音频数据分割为预设长度的样本音频数据段;将各所述样本音频数据段处理为预设维度的样本音频段特征向量;标记各所述样本音频段特征向量的看点类型,得到标记音频数据集;利用深度学习算法对所述标记音频数据集进行训练,得到看点类型标记模型。实现了通过提取视频数据中的音频数据,并输入到上述看点类型标记模型中,进而对视频数据进行看点类型标记的目的。

Model Generation Method, Video Marking Method, Device, Terminal and Storage Media

【技术实现步骤摘要】
模型生成方法、视频标记方法、装置、终端及存储介质
本专利技术属于网络
,特别是涉及一种模型生成方法、视频标记方法、装置、终端及计算机可读存储介质。
技术介绍
随着网络技术的不断提升,网络视频播放逐渐成为一种主流的信息传播途径与大众娱乐方式。为了丰富向用户更清晰准确的表达视频内容,往往需要将视频内容进行分类,并进行标记后展示给用户,尤其是海量的短视频,可以使用户通过标记直接找到感兴趣的视频内容并进行点击。现有技术中,对视频内容的标记大部分依赖于人工操作,对视频进行看点分析,输入详细内容,尤其是对一个长视频的进行分割后的短视频可能会全部被标记与长视频同样的类型,或者用户自制视频往往由用户自己定义类型,导致视频类型杂乱无章,不能简单直接的体现视频内容。因此,如何准确高效的将各种视频进行预设看点类型的标记是目前有待解决的技术问题。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种模型生成方法、视频标记方法、装置、终端及计算机可读存储介质,以解决现有技术中视频内容的标记大部分依赖于人工操作,导致视频标记低效且人工成本高的技术问题。为了解决上述问题,本专利技术是通过如下技术方案实现的本文档来自技高网...

【技术保护点】
1.一种模型生成方法,其特征在于,所述方法包括:提取样本视频数据集中各样本视频数据对应的样本音频数据;将所述样本音频数据分割为预设长度的样本音频数据段;将各所述样本音频数据段处理为预设维度的样本音频段特征向量;标记各所述样本音频段特征向量的看点类型,得到标记音频数据集;利用深度学习算法对所述标记音频数据集进行训练,得到看点类型标记模型。

【技术特征摘要】
1.一种模型生成方法,其特征在于,所述方法包括:提取样本视频数据集中各样本视频数据对应的样本音频数据;将所述样本音频数据分割为预设长度的样本音频数据段;将各所述样本音频数据段处理为预设维度的样本音频段特征向量;标记各所述样本音频段特征向量的看点类型,得到标记音频数据集;利用深度学习算法对所述标记音频数据集进行训练,得到看点类型标记模型。2.根据权利要求1所述的方法,其特征在于,所述将各所述样本音频数据段处理为预设维度的样本音频段特征向量的步骤,包括:将所述样本音频数据段通过分帧处理,得到分帧音频数据;将所述分帧音频数据与加窗函数相乘,得到加窗音频数据;将所述加窗音频数据进行梅尔变换,生成所述样本音频数据段的样本梅尔频谱数据;将所述样本梅尔频谱数据转换为预设维度的样本音频段特征向量。3.根据权利要求2所述的方法,其特征在于,所述将所述样本梅尔频谱数据转换为预设维度的样本音频段特征向量的步骤,包括:提取所述样本梅尔频谱数据中的每一帧音频数据对应的样本分帧梅尔频谱数据;将所述样本分帧梅尔频谱数据转换为样本分帧音频特征向量;将预设帧数的所述样本分帧音频特征向量进行拼接,生成预设维度的样本音频段特征向量。4.一种视频标记方法,其特征在于,所述方法包括:接收对视频数据进行看点类型的标记请求;根据所述标记请求,利用看点类型标记模型,标记所述视频数据的看点类型。5.根据权利要求4所述的方法,其特征在于,所述根据所述标记请求,利用看点类型标记模型,标记所述视频数据的看点类型的步骤,包括:根据所述标记请求,提取所述视频数据中的音频数据;将所述音频数据分割为预设长度的音频数据段;将各所述音频数据段处理为预设维度的音频段特征向量;将所述音频段特征向量输入看点类型标记模型,以使所述看点类型标记模型输出所述音频段特征向量的看点类型标签;获取所述音频数据中各所述音频数据段的看点类型标签的数目;将所述数目最大值,或,所述数目大于或等于预设阈值的看点类型标签的所属看点类型,确定为所述音频数据对应的所述视频数据的视频看点类型。6.根据权利要求5所述的方法,其特征在于,所述将各所述音频数据段处理为预设维度的音频段特征向量,包括:对各所述音频数据段进行分帧处理,得到音频段分帧数据;将所述音频段分帧数据与加窗函数相乘,得到音频段加窗数据;将所述音频段加窗数据进行梅尔变换,生成所述音频数据段的梅尔频谱数据;将所述音频段加窗数据进行梅尔变换,生成所述音频数据段的梅尔频谱数据。7.根据权利要求6所述的方法,其特征在于,所述将所述音频段加窗数据进行梅尔变换,生成所述音频数据段的梅尔频谱数据的步骤,包括:提取所述梅尔频谱数据中的每一帧音频数据对应的分帧梅尔频谱数据;将所述分帧梅尔频谱数据转换为分帧音频特征向量;将预设帧数的所述分帧音频特征向量进行拼接,生成预设维度的音频段特征向量。8.一种模型生成装置,其特征在于,所述装置包括:样本音频数据提取子模块,用于提取样本视频数据集中各样本视频数据对应的样本音频数据;样本音频数据段获得模块,用于将所述样本音频数据分割为预设长度的样本音频数据段;样本音频段特征向量获得模块,用于将各所述样本音频数据段处理为预设维度的样本音频段特征向量;标记音频数据集获取模块,用于标记各所述样本音频段特征向量的看点类型,得到标记音频数据集;看点类型标记模型训练模块,用于利用深度学习算法对所述标记音频数据集进行训练,得到看点类型标记模型。9.根...

【专利技术属性】
技术研发人员:贾少勇
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1