当前位置: 首页 > 专利查询>山东大学专利>正文

基于多模态字典学习的短视频分类方法、系统及介质技术方案

技术编号:20364413 阅读:55 留言:0更新日期:2019-02-16 17:13
本发明专利技术公开了基于多模态字典学习的短视频分类方法、系统及介质,并将其应用到短视频场景预测问题中,包括以下步骤:离线部分:依据少量标记样本,构建树形引导多模态字典学习,得到初始化的多模态字典给以及相应的稀疏表示;基于学习到的多模态稀疏表示,为每一个模态训练一个短视频场景分类器;在线部分:实时的对新来的短视频样本进行场景预测或者强化字典学习模型。对于新来的短视频,如果有场景标记,就用来强化字典学习模型;如果场景没有被标记,就用离线部分训练学习的分类器对场景类别预测。

【技术实现步骤摘要】
基于多模态字典学习的短视频分类方法、系统及介质
本专利技术涉及短视频分类
,特别是涉及基于多模态字典学习的短视频分类方法、系统及介质。
技术介绍
我们生活在一个不断缩减关注时间的时代,为了满足我们对快速内容的渴求,除了推文和微博等短文本外,拥有“更短-更好”特性的短视频,随着共享服务的兴起而越来越受欢迎。典型的服务包括国外的Vine,Snapchat,Viddy和MixBit,国内的抖音、快手和火山等平台,它们通常将视频长度限制在6,10,15或者16秒。凭借简洁,真实性,可传播性和低成本的价值的特点,短视频正在摇摆并接管内容和社交媒体营销空间。随着短视频数量以指数速度增长,在短视频的高阶分析(例如搜索、浏览和导航)中,短视频的类别信息起着越来越重要的作用。传统长视频可以很好地被分类为特定的视频类型,从“犯罪”、“纪录片”、“浪漫”到“战争”,如YouTube中的视频分类。与传统的长视频不同,短视频作为一种新兴媒体,没有成熟的分类体系可供遵循。此外,由于短视频记录了生活中的真实事物,而长视频涵盖了更广泛的事物,如奇妙的表演。由于两种视频的侧重点不同,直接将长视频分类体系应用于短视频是不适宜的。值得庆幸的是,短视频经常在一个特定的地方拍摄,而且短视频服务平台也鼓励用户使用GPS去手动标记短视频的拍摄场地信息,如“上海迪士尼乐园”。基于FoursquareAPI每个场地都可以映射到一个场景类别,例如“游乐场”,并且这些场景类别被组织为树状结构的分类体系。受此启发,我们的目标是通过将短视频归类到树状结构的叶节点来对短视频进行分类。在对短视频进行分类时,人们必须考虑一个不可或缺的因素,即在线学习。一方面,短视频通常很容易在移动端拍摄并即时分享,因此及时性是它们的亮点之一。鉴于此,高效的在线操作值得人们关注。另一方面,由于隐私保护等方面的考虑,只有极少数的短视频被标记了场景信息,而场景类别的树结构包含821个叶节点。因此,很难获得足够的训练样本来构建一个用于短视频分类的模型。但是,短视频是在线不断上传的,可以通过利用在线上传短视频的知识逐步增强学习模型。在线短视频分类是一件富有挑战的问题。首先,类似于传统的长视频,就像YouTube中的视频一样,短视频也是文本,视觉和声音模态的统一体,它们从不同角度互补的描述同一个短视频内容。尽管之前的一些方法致力于多模态数据融合,但如何对多模态之间的相关性进行建模并将其有效融合仍然是一个开放的研究问题。除此之外,短视频具有其突出和独特的特点:1)短视频比较短,通常只传达一个或几个高级主题或概念。因此,有必要学习短视频的高层次和稀疏表示。2)树分类结构体系中的场地类别不是独立的,而是层次相关的。特别是,两个场地类别在树中越靠近,与它们相关的短视频就应该传达越相似的概念。从某种意义上说,在学习短视频的特征表示时必须考虑短视频的固有结构。
技术实现思路
为了解决现有技术的不足,本专利技术提供了基于多模态字典学习的短视频分类方法、系统及介质,将短视频按照树状结构进行分类。为了解决上述技术问题,本专利技术采用如下技术方案:作为本专利技术的第一方面,提供了基于多模态字典学习的短视频分类方法;基于多模态字典学习的短视频分类方法,包括:离线部分:对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的多模态特征;对每一模态特征均构建基于场景类别树的当前模态字典;将当前模态特征映射到基于场景类别树的当前模态字典上,得到当前模态特征的稀疏表示;构建当前模态分类器,利用基于当前模态特征的稀疏表示对当前模态分类器进行训练,得到训练好的当前模态分类器;在线部分:对于无场景标记的短视频测试样本,提取某模态测试特征;将所述某模态测试特征映射到基于场景类别树的对应模态字典上,得到对应模态测试特征的稀疏表示;将对应模态测试特征的稀疏表示输入到训练好的对应模态分类器中,输出分类结果;将所有模态的分类结果进行融合,得到短视频测试样本的场景。进一步的,所述离线部分的具体步骤为:对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的视觉训练特征、声音训练特征和文本训练特征;基于所有的视觉训练特征构建基于场景类别树的视觉模态字典;将每一个视觉训练特征映射到基于场景类别树的视觉模态字典上,得到视觉训练特征的稀疏表示;构建视觉模态分类器,利用基于视觉训练特征的稀疏表示对视觉模态分类器进行训练,得到训练好的视觉模态分类器;基于所有的声音训练特征构建基于场景类别树的声音模态字典;将每一个声音训练特征映射到基于场景类别树的声音模态字典上,得到声音训练特征的稀疏表示;构建声音模态分类器,利用基于声音训练特征的稀疏表示对声音模态分类器进行训练,得到训练好的声音模态分类器;基于所有的文本训练特征构建基于场景类别树的文本模态字典;将每一个文本训练特征映射到基于场景类别树的文本模态字典上,得到文本训练特征的稀疏表示;构建文本模态分类器,利用基于文本训练特征的稀疏表示对文本模态分类器进行训练,得到训练好的文本模态分类器。进一步的,所述在线部分的具体步骤为:对于无场景标记的短视频测试样本,提取视觉测试特征、声音测试特征和文本测试特征,将视觉测试特征映射到基于场景类别树的视觉模态字典上,得到视觉测试特征的稀疏表示;将视觉测试特征的稀疏表示输入到训练好的视觉模态分类器中,输出第一分类结果;将声音测试特征映射到基于场景类别树的声音模态字典上,得到声音测试特征的稀疏表示;将声音测试特征的稀疏表示输入到训练好的声音模态分类器中,输出第二分类结果;将文本测试特征映射到基于场景类别树的文本模态字典上,得到文本测试特征的稀疏表示;将文本测试特征的稀疏表示输入到训练好的文本模态分类器中,输出第三分类结果;将第一分类结果、第二分类结果和第三分类结果进行融合,得到最终的分类结果,即短视频测试样本的场景类别。进一步的,所述场景类别树是Foursquare网站生成的,FoursquareAPI可以将短视频的拍摄场地信息映射到一个场景类别,并且将所有的场景类别组织为树状结构的分类体系。所述场景类别树,是将短视频的场景类别划分为树形结构假设该树形结构包括T个叶子节点,每个叶子节点表示一种短视频场景类别,树中的节点集合为对每一个中间节点都存在一个场景类别集合该集合包含所有属于中间节点v的叶子结点ti;给定N个短视频,每一个短视频均有M种模态,并且N个短视频均具有场景标签,每个场景标签属于短视频场景类别树的T个叶子结点中的一个;根据短视频的场景标签,即可得知该短视频所归属的叶子节点。进一步的,构建基于场景类别树的视觉模态字典、构建基于场景类别树的声音模态字典或构建基于场景类别树的文本模态字典采用的方式为:步骤(11):构建模型:其中,为节点v上的短视频的第m个模态的稀疏表示;K表示稀疏特征表示的维度;表示属于中间节点v的叶子节点数目;为字典第m个模态的字典Dm的第k列,即第k个字典元素;ev是预先定义的常数值,设置为节点v的子节点的个数;步骤(12):采用交替方向迭代法对步骤(11)的模型进行求解得到相应模态的字典Dm以及相应模态的稀疏表示Am。进一步的,所述在线部分的具体步骤还包括:对于有场景标记的短视频测试样本,提取视觉测试特征、声音测试特征和文本文档来自技高网
...

【技术保护点】
1.基于多模态字典学习的短视频分类方法,其特征是,包括:离线部分:对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的多模态特征;对每一模态特征均构建基于场景类别树的当前模态字典;将当前模态特征映射到基于场景类别树的当前模态字典上,得到当前模态特征的稀疏表示;构建当前模态分类器,利用基于当前模态特征的稀疏表示对当前模态分类器进行训练,得到训练好的当前模态分类器;在线部分:对于无场景标记的短视频测试样本,提取某模态测试特征;将所述某模态测试特征映射到基于场景类别树的对应模态字典上,得到对应模态测试特征的稀疏表示;将对应模态测试特征的稀疏表示输入到训练好的对应模态分类器中,输出分类结果;将所有模态的分类结果进行融合,得到短视频测试样本的场景。

【技术特征摘要】
1.基于多模态字典学习的短视频分类方法,其特征是,包括:离线部分:对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的多模态特征;对每一模态特征均构建基于场景类别树的当前模态字典;将当前模态特征映射到基于场景类别树的当前模态字典上,得到当前模态特征的稀疏表示;构建当前模态分类器,利用基于当前模态特征的稀疏表示对当前模态分类器进行训练,得到训练好的当前模态分类器;在线部分:对于无场景标记的短视频测试样本,提取某模态测试特征;将所述某模态测试特征映射到基于场景类别树的对应模态字典上,得到对应模态测试特征的稀疏表示;将对应模态测试特征的稀疏表示输入到训练好的对应模态分类器中,输出分类结果;将所有模态的分类结果进行融合,得到短视频测试样本的场景。2.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述离线部分的具体步骤为:对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的视觉训练特征、声音训练特征和文本训练特征;基于所有的视觉训练特征构建基于场景类别树的视觉模态字典;将每一个视觉训练特征映射到基于场景类别树的视觉模态字典上,得到视觉训练特征的稀疏表示;构建视觉模态分类器,利用基于视觉训练特征的稀疏表示对视觉模态分类器进行训练,得到训练好的视觉模态分类器;基于所有的声音训练特征构建基于场景类别树的声音模态字典;将每一个声音训练特征映射到基于场景类别树的声音模态字典上,得到声音训练特征的稀疏表示;构建声音模态分类器,利用基于声音训练特征的稀疏表示对声音模态分类器进行训练,得到训练好的声音模态分类器;基于所有的文本训练特征构建基于场景类别树的文本模态字典;将每一个文本训练特征映射到基于场景类别树的文本模态字典上,得到文本训练特征的稀疏表示;构建文本模态分类器,利用基于文本训练特征的稀疏表示对文本模态分类器进行训练,得到训练好的文本模态分类器。3.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述在线部分的具体步骤为:对于无场景标记的短视频测试样本,提取视觉测试特征、声音测试特征和文本测试特征,将视觉测试特征映射到基于场景类别树的视觉模态字典上,得到视觉测试特征的稀疏表示;将视觉测试特征的稀疏表示输入到训练好的视觉模态分类器中,输出第一分类结果;将声音测试特征映射到基于场景类别树的声音模态字典上,得到声音测试特征的稀疏表示;将声音测试特征的稀疏表示输入到训练好的声音模态分类器中,输出第二分类结果;将...

【专利技术属性】
技术研发人员:刘萌聂礼强王翔宋雪萌甘甜陈宝权
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1