基于多模态字典学习的短视频分类方法、系统及介质技术方案

技术编号：20364413 阅读：55 留言：0更新日期：2019-02-16 17:13

本发明专利技术公开了基于多模态字典学习的短视频分类方法、系统及介质，并将其应用到短视频场景预测问题中，包括以下步骤：离线部分：依据少量标记样本，构建树形引导多模态字典学习，得到初始化的多模态字典给以及相应的稀疏表示；基于学习到的多模态稀疏表示，为每一个模态训练一个短视频场景分类器；在线部分：实时的对新来的短视频样本进行场景预测或者强化字典学习模型。对于新来的短视频，如果有场景标记，就用来强化字典学习模型；如果场景没有被标记，就用离线部分训练学习的分类器对场景类别预测。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态字典学习的短视频分类方法、系统及介质
本专利技术涉及短视频分类
，特别是涉及基于多模态字典学习的短视频分类方法、系统及介质。
技术介绍
我们生活在一个不断缩减关注时间的时代，为了满足我们对快速内容的渴求，除了推文和微博等短文本外，拥有“更短-更好”特性的短视频，随着共享服务的兴起而越来越受欢迎。典型的服务包括国外的Vine，Snapchat，Viddy和MixBit，国内的抖音、快手和火山等平台，它们通常将视频长度限制在6,10,15或者16秒。凭借简洁，真实性，可传播性和低成本的价值的特点，短视频正在摇摆并接管内容和社交媒体营销空间。随着短视频数量以指数速度增长，在短视频的高阶分析(例如搜索、浏览和导航)中，短视频的类别信息起着越来越重要的作用。传统长视频可以很好地被分类为特定的视频类型，从“犯罪”、“纪录片”、“浪漫”到“战争”，如YouTube中的视频分类。与传统的长视频不同，短视频作为一种新兴媒体，没有成熟的分类体系可供遵循。此外，由于短视频记录了生活中的真实事物，而长视频涵盖了更广泛的事物，如奇妙的表演。由于两种视频的侧重点不同，直接将长视频分类体系应用于短视频是不适宜的。值得庆幸的是，短视频经常在一个特定的地方拍摄，而且短视频服务平台也鼓励用户使用GPS去手动标记短视频的拍摄场地信息，如“上海迪士尼乐园”。基于FoursquareAPI每个场地都可以映射到一个场景类别，例如“游乐场”，并且这些场景类别被组织为树状结构的分类体系。受此启发，我们的目标是通过将短视频归类到树状结构的叶节点来对短视频进行分类。在对短视频进行分类时，人们...

【技术保护点】
1.基于多模态字典学习的短视频分类方法，其特征是，包括：离线部分：对带有场景标记的短视频训练样本，构建场景类别树，提取短视频训练样本的多模态特征；对每一模态特征均构建基于场景类别树的当前模态字典；将当前模态特征映射到基于场景类别树的当前模态字典上，得到当前模态特征的稀疏表示；构建当前模态分类器，利用基于当前模态特征的稀疏表示对当前模态分类器进行训练，得到训练好的当前模态分类器；在线部分：对于无场景标记的短视频测试样本，提取某模态测试特征；将所述某模态测试特征映射到基于场景类别树的对应模态字典上，得到对应模态测试特征的稀疏表示；将对应模态测试特征的稀疏表示输入到训练好的对应模态分类器中，输出分类结果；将所有模态的分类结果进行融合，得到短视频测试样本的场景。

【技术特征摘要】
1.基于多模态字典学习的短视频分类方法，其特征是，包括：离线部分：对带有场景标记的短视频训练样本，构建场景类别树，提取短视频训练样本的多模态特征；对每一模态特征均构建基于场景类别树的当前模态字典；将当前模态特征映射到基于场景类别树的当前模态字典上，得到当前模态特征的稀疏表示；构建当前模态分类器，利用基于当前模态特征的稀疏表示对当前模态分类器进行训练，得到训练好的当前模态分类器；在线部分：对于无场景标记的短视频测试样本，提取某模态测试特征；将所述某模态测试特征映射到基于场景类别树的对应模态字典上，得到对应模态测试特征的稀疏表示；将对应模态测试特征的稀疏表示输入到训练好的对应模态分类器中，输出分类结果；将所有模态的分类结果进行融合，得到短视频测试样本的场景。2.如权利要求1所述的基于多模态字典学习的短视频分类方法，其特征是，所述离线部分的具体步骤为：对带有场景标记的短视频训练样本，构建场景类别树，提取短视频训练样本的视觉训练特征、声音训练特征和文本训练特征；基于所有的视觉训练特征构建基于场景类别树的视觉模态字典；将每一个视觉训练特征映射到基于场景类别树的视觉模态字典上，得到视觉训练特征的稀疏表示；构建视觉模态分类器，利用基于视觉训练特征的稀疏表示对视觉模态分类器进行训练，得到训练好的视觉模态分类器；基于所有的声音训练特征构建基于场景类别树的声音模态字典；将每一个声音训练特征映射到基于场景类别树的声音模态字典上，得到声音训练特征的稀疏表示；构建声音模态分类器，利用基于声音训练特征的稀疏表示对声音模态分类器进行训练，得到训练好的声音模态分类器；基于所有的文本训练特征构建基于场景类别树的文本模态字典；将每一个文本训练特征映射到基于场景类别树的文本模态字典上，得到文本训练特征的稀疏表示；构建文本模态分类器，利用基于文本训练特征的稀疏表示对文本模态分类器进行训练，得到训练好的文本模态分类器。3.如权利要求1所述的基于多模态字典学习的短视频分类方法，其特征是，所述在线部分的具体步骤为：对于无场景标记的短视频测试样本，提取视觉测试特征、声音测试特征和文本测试特征，将视觉测试特征映射到基于场景类别树的视觉模态字典上，得到视觉测试特征的稀疏表示；将视觉测试特征的稀疏表示输入到训练好的视觉模态分类器中，输出第一分类结果；将声音测试特征映射到基于场景类别树的声音模态字典上，得到声音测试特征的稀疏表示；将声音测试特征的稀疏表示输入到训练好的声音模态分类器中，输出第二分类结果；将...

【专利技术属性】
技术研发人员：刘萌，聂礼强，王翔，宋雪萌，甘甜，陈宝权，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人