基于UCL的可定制交互式视频制作方法与装置制造方法及图纸

技术编号:25224980 阅读:28 留言:0更新日期:2020-08-11 23:14
本发明专利技术公开了一种基于UCL的可定制交互式视频制作方法与装置。该方法首先对Faster R‑CNN目标检测网络模型进行改进,以达到对视频中出现的目标进行细粒度类别检测与精准识别的应用效果;然后对视频进行分段,提取视频段的多个特征并采用基于LSTM的视频语义提取模型,提取各段视频的语义信息;最后利用统一内容标签UCL对视频进行语义标引,并构建基于UCL的知识库,以便支持可定制交互式视频应用对视频中出现的目标的详细信息进行自动检索等。本发明专利技术既能实现可定制交互式视频的自动化制作,同时也能保证嵌入视频中的信息的时效性和灵活性,以及交互式视频应用中视频目标信息的语义关联性和按需可定制性。

【技术实现步骤摘要】
基于UCL的可定制交互式视频制作方法与装置
本专利技术涉及一种基于UCL(UniformContentLabel,统一内容标签)的可定制交互式视频的制作方法与装置,属于视频图像处理领域。
技术介绍
网络视频行业的蓬勃发展,推动着视频多媒体应用的不断创新。相比于传统意义上,用户被动接受全部视频内容,人们寻求更加主动,能交互操作的方式来了解和发掘视频中的内容信息,同时对视频中的冗余信息或者用户不需要的信息能做到过滤和筛选。交互式视频就是这样一类视频新应用。目前交互式视频可分为三类:第一类是可定制式,它允许用户在观看时调整一些视频的变量元素,但视频本身是线性的。例如用户在在观看视频时,鼠标移动到某物件上,能够显示改物件的信息。第二类是会话式,用户直接参与改变视频的顺序甚至结果,视频不再线性,视频的设计者准备多个结局和段落,让用户可以自行选择。第三类是探索式,用户在视频播放中自行摸索可交互点和交互方式。这类视频一般采用生活中的场景(让人更容易产生代入感),在用户操作前,会一直循环播放场景,直到用户发现交互点,才会继续。相对于传统的视频服务,交互式视频凭借着,可交互、信息量大等优点,在特定视频定制应用领域,有着得天独厚的优势和很大的市场需求。然而,目前很多交互式视频制作工具可用于制作可定制式视频,但需要视频制作者将物品或人信息的超链接,手动嵌入到视频中,费时费力。并且一旦信息被嵌入到视频当中,则不宜更改,时效性和灵活性大大降低。在技术方面,近年来国内外学者在目标检测,知识库构建方面已经取得了一定的进展,但是在实际运用中还存在一定的问题,首先候选区域的目标检测算法和基于回归的目标检测算法,虽然在检测目标时能够达到很高的检测精度和较快的检测速度,但却不能检测出目标的详细类别信息,例如,通过目标检测可以检测出物体是一瓶可乐,却不能检测出这瓶可乐具体的品牌。其次,基于知识库进行信息检索,已经能获得一定的语义信息,但是知识库中的信息需要不断地丰富,以此提高信息检索的时效性。例如,在检索某一公众人物A时,可通过知识库获取A的基本信息,但是可能观众更关心A最近出席了哪些活动,发表了哪些讲话,并观看与这些内容相关的视频。
技术实现思路
专利技术目的:针对现有技术中可定制交互式视频制作存在的问题与不足,本专利技术提出一种基于UCL的可定制交互式视频制作方法与装置,能够利用深度学习技术自动提取视频中的目标和视频段的语义信息,并能利用UCL对视频进行语义标引和知识库构建,实现可定制交互式视频的自动化制作,提高嵌入信息的时效性。技术方案:为实现上述专利技术目的,本专利技术所述的一种基于UCL的可定制交互式视频制作方法,首先利用改进的目标检测模型检测出视频中出现的目标;然后需要将视频按照场景进行分段,并以视频段中的各个帧的视觉特征、运动特征、音频特征和目标特征为输入,利用视频语义提取模型提取出视频段的高层语义信息;最后将之前提取的各信息进行UCL标引并以此构建UCL知识库。该方法包括如下步骤:(1)利用基于FasterR-CNN的细粒度目标检测模型,对视频中的各个帧图像进行目标检测,以检测出视频中出现的目标的细粒度类别;(2)采用视频分段算法对视频按照场景进行分段;所述视频分段算法以视频中各帧图像作为输入,利用深度神经网络提取图像特征,并通过图像特征聚类以判断图像所属的场景;(3)对步骤(2)得到的视频段进行特征提取,提取视频段的特征包括:视觉特征、光学流图像特征、音频特征和目标特征,将提取到的特征编码成向量序列后通过基于LSTM的语义提取模型生成视频的自然语言描述;(4)由步骤(3)所提取的视频中所有视频段的自然语言描述,利用TextRank算法获得整个视频的关键词集合和对应的关键词重要程度集合,然后将视频的关键词集合及对应的重要程度集合、自然语言描述集、视频标题、视频的作者和视频的创作时间封装成UCL包,作为知识库的语料信息;(5)利用知识库存储视频UCL包和UCL包之间的关系;所述知识库以实体库为基础,将视频UCL包连接在实体库中的实体节点上,并基于UCL包中的关键词与实体的匹配程度,计算UCL与实体之间的关联权重。作为优选,所述步骤(1)中利用基于FasterR-CNN的细粒度目标检测模型检测视频中出现的目标的细粒度类别,包括如下步骤:(1.1)利用FasterR-CNN目标检测模型得到帧图像的候选框特征图集合和每个候选框的位置偏移量;(1.2)使用三元损失函数训练各个细粒度类别判别模型,将每个候选框特征图作为候选框图像送入各个细粒度类别判别模型中进行细粒度类别判定。作为优选,步骤(1.2)中利用细粒度类别判别模型判别候选框细粒度类别包括如下步骤:(1.2.1)在利用第i个粗粒度类别CCi的细粒度类别判别模型CCMi判别候选框图像j时,将j输入到VGG16模型中,把VGG16模型的最后一个池化层的输出送入全连接层,获得候选框图像j的特征向量fj;(1.2.2)对特征向量fj进行归一化,获得候选框的归一化特征向量out;(1.2.3)遍历粗粒度类别CCi图库中的图片,对于图库中第m张图片imgm,其粗粒度类别CCi的细粒度类别判别模型输出为outm,类别为categoriesm。通计算候选框图像与粗粒度类别CCi图库中图片的特征向量欧式距离distance(out,outm);(1.2.4)按照如下公式得到两张图片的相似程度标志similarity_tag(out,outm);其中,τ1与τ2为模型的超参,由交叉验证得出;取图库中与候选框图像的欧氏距离最短的图片imgs;当imgs与候选框图像的相似程度标志为1表示两张图片的相似度很高,属于同一细粒度类别,imgs的细粒度类别就是候选框图像的最终类别;当imgs与候选框图像的相似程度标志为0表示两张图片的相似度较,属于同一粗粒度类别,imgs的粗粒度类别就是候选框图像的最终类别;当imgs与候选框图像的相似程度标志为-1表示两张图片的相似度较低,属于不同类别,利用其他细粒度类别判别模型判别候选框图像的细粒度类别;若比较结束后仍无类别输出,则无此类别。作为优选,步骤(1.2)利用如下公式作为损失函数训练各个粗粒度类别的细粒度类别判别模型;其中,N是样本中三元组<a,p,n>的总数,a表示参考样本图片,p表示正例样本图片,它与a同类但不是同一个;n表示反例样本图片,它与a属于不同类别;ak、pk和nk分别表示训练集中第k个三元组中参考样本图片、正例样本图片和反例样本图片,f(ak)、f(pk)和f(nk)分别表示以ak、pk和nk作为输入,细粒度的类别判别模型的输出特征向量;超参数由交叉验证得出。作为优选,所述步骤(3)中视觉特征通过GoogLeNet模型提取,将该模型的最后一个FC的输出向量作为视觉特征向量;光学流图像特征是先生成光流图片,再将光流图片利用GoogLeNet模型提取出光流图像特征得到的;音频特征的提取方法是,先将视频段中的背景音乐去除,然本文档来自技高网
...

【技术保护点】
1.一种基于UCL的可定制交互式视频制作方法,其特征在于,包括如下步骤:/n(1)利用基于Faster R-CNN的细粒度目标检测模型,对视频中的各个帧图像进行目标检测,以检测出视频中出现的目标的细粒度类别;/n(2)采用视频分段算法对视频按照场景进行分段;所述视频分段算法以视频中各帧图像作为输入,利用深度神经网络提取图像特征,并通过图像特征聚类以判断图像所属的场景;/n(3)对步骤(2)得到的视频段进行特征提取,提取的视频段特征包括视觉特征、光学流图像特征、音频特征和目标特征;将提取到的特征编码成向量序列后通过基于LSTM的语义提取模型生成视频的自然语言描述;/n(4)由步骤(3)所提取的视频中所有视频段的自然语言描述,利用TextRank算法获得整个视频的关键词集合和对应的关键词重要程度集合,然后将视频的关键词集合及对应的重要程度集合、自然语言描述集、视频标题、视频的作者和视频的创作时间封装成UCL,作为知识库的语料信息;/n(5)利用知识库存储视频UCL和UCL之间的关系;所述知识库以实体库为基础,将视频UCL连接在实体库中的实体节点上,并基于UCL中的关键词与实体的匹配程度,计算UCL与实体之间的关联权重。/n...

【技术特征摘要】
1.一种基于UCL的可定制交互式视频制作方法,其特征在于,包括如下步骤:
(1)利用基于FasterR-CNN的细粒度目标检测模型,对视频中的各个帧图像进行目标检测,以检测出视频中出现的目标的细粒度类别;
(2)采用视频分段算法对视频按照场景进行分段;所述视频分段算法以视频中各帧图像作为输入,利用深度神经网络提取图像特征,并通过图像特征聚类以判断图像所属的场景;
(3)对步骤(2)得到的视频段进行特征提取,提取的视频段特征包括视觉特征、光学流图像特征、音频特征和目标特征;将提取到的特征编码成向量序列后通过基于LSTM的语义提取模型生成视频的自然语言描述;
(4)由步骤(3)所提取的视频中所有视频段的自然语言描述,利用TextRank算法获得整个视频的关键词集合和对应的关键词重要程度集合,然后将视频的关键词集合及对应的重要程度集合、自然语言描述集、视频标题、视频的作者和视频的创作时间封装成UCL,作为知识库的语料信息;
(5)利用知识库存储视频UCL和UCL之间的关系;所述知识库以实体库为基础,将视频UCL连接在实体库中的实体节点上,并基于UCL中的关键词与实体的匹配程度,计算UCL与实体之间的关联权重。


2.根据权利要求1基于UCL的可定制交互式视频制作方法,其特征在于,所述步骤(1)中利用基于FasterR-CNN的细粒度目标检测模型检测视频中出现的目标的细粒度类别,包括如下步骤:
(1.1)利用FasterR-CNN目标检测模型得到帧图像的候选框特征图集合和每个候选框的位置偏移量;
(1.2)使用三元损失函数训练各个细粒度类别判别模型,将每个候选框特征图作为候选框图像送入各个细粒度类别判别模型中进行细粒度类别判定。


3.根据权利要求1基于UCL的可定制交互式视频制作方法,其特征在于,所述步骤(1.2)中利用细粒度类别判别模型识别候选框细粒度类别包括如下步骤:
(1.2.1)在利用第i个粗粒度类别CCi的细粒度类别判别模型CCMi判别候选框图像j时,将j输入到VGG16模型中,把VGG16模型的最后一个池化层的输出送入全连接层,获得候选框图像j的特征向量fj;
(1.2.2)对特征向量fj进行归一化,获得候选框的归一化特征向量out;
(1.2.3)遍历粗粒度类别CCi图库中图库中的图片,对于图库中第m张图片imgm,其粗粒度类别CCi的细粒度类别判别模型输出为outm,类别为categoriesm;计算候选框图像j与粗粒度类别CCi图库中图片imgm的特征向量欧式距离distance(out,outm);
(1.2.4)按照如下公式得到两张图片的相似程度标志similarity_tage(out,outm);



其中,τ1与τ2为模型的超参,由交叉验证得出;取图库中与候选框图像的欧氏距离最短的图片imgs,当imgs与候选框图像的相似程度标志为1表示两张图片的相似度很高,属于同一细粒度类别,imgs的细粒度类别就是候选框图像的最终类别;当imgs与候选框图像的相似程度标志为0表示两张图片的相似度较高,属于同一粗粒度类别,imgs的粗粒度类别就是候选框图像的最终类别;当imgs与候选框图像的相似度标志为-1表示两张图片的相似度较低,属于不同类别,继续利用其他细粒度类别判别模型判别候选框图像的细粒度类别,若比较结束后仍无类别输出,则无此类别。


4.根据权利要求2基于UCL的可定制交互式视频制作方法,其特征在...

【专利技术属性】
技术研发人员:杨鹏闵克祥赵广振
申请(专利权)人:南京优慧信安科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1