【技术实现步骤摘要】
基于UCL的可定制交互式视频制作方法与装置
本专利技术涉及一种基于UCL(UniformContentLabel,统一内容标签)的可定制交互式视频的制作方法与装置,属于视频图像处理领域。
技术介绍
网络视频行业的蓬勃发展,推动着视频多媒体应用的不断创新。相比于传统意义上,用户被动接受全部视频内容,人们寻求更加主动,能交互操作的方式来了解和发掘视频中的内容信息,同时对视频中的冗余信息或者用户不需要的信息能做到过滤和筛选。交互式视频就是这样一类视频新应用。目前交互式视频可分为三类:第一类是可定制式,它允许用户在观看时调整一些视频的变量元素,但视频本身是线性的。例如用户在在观看视频时,鼠标移动到某物件上,能够显示改物件的信息。第二类是会话式,用户直接参与改变视频的顺序甚至结果,视频不再线性,视频的设计者准备多个结局和段落,让用户可以自行选择。第三类是探索式,用户在视频播放中自行摸索可交互点和交互方式。这类视频一般采用生活中的场景(让人更容易产生代入感),在用户操作前,会一直循环播放场景,直到用户发现交互点,才会继续。相对于传统的视频服务,交互式视频凭借着,可交互、信息量大等优点,在特定视频定制应用领域,有着得天独厚的优势和很大的市场需求。然而,目前很多交互式视频制作工具可用于制作可定制式视频,但需要视频制作者将物品或人信息的超链接,手动嵌入到视频中,费时费力。并且一旦信息被嵌入到视频当中,则不宜更改,时效性和灵活性大大降低。在技术方面,近年来国内外学者在目标检测,知识库构建方面已经取得了一定的进展,但是在实际运用中 ...
【技术保护点】
1.一种基于UCL的可定制交互式视频制作方法,其特征在于,包括如下步骤:/n(1)利用基于Faster R-CNN的细粒度目标检测模型,对视频中的各个帧图像进行目标检测,以检测出视频中出现的目标的细粒度类别;/n(2)采用视频分段算法对视频按照场景进行分段;所述视频分段算法以视频中各帧图像作为输入,利用深度神经网络提取图像特征,并通过图像特征聚类以判断图像所属的场景;/n(3)对步骤(2)得到的视频段进行特征提取,提取的视频段特征包括视觉特征、光学流图像特征、音频特征和目标特征;将提取到的特征编码成向量序列后通过基于LSTM的语义提取模型生成视频的自然语言描述;/n(4)由步骤(3)所提取的视频中所有视频段的自然语言描述,利用TextRank算法获得整个视频的关键词集合和对应的关键词重要程度集合,然后将视频的关键词集合及对应的重要程度集合、自然语言描述集、视频标题、视频的作者和视频的创作时间封装成UCL,作为知识库的语料信息;/n(5)利用知识库存储视频UCL和UCL之间的关系;所述知识库以实体库为基础,将视频UCL连接在实体库中的实体节点上,并基于UCL中的关键词与实体的匹配程度,计 ...
【技术特征摘要】
1.一种基于UCL的可定制交互式视频制作方法,其特征在于,包括如下步骤:
(1)利用基于FasterR-CNN的细粒度目标检测模型,对视频中的各个帧图像进行目标检测,以检测出视频中出现的目标的细粒度类别;
(2)采用视频分段算法对视频按照场景进行分段;所述视频分段算法以视频中各帧图像作为输入,利用深度神经网络提取图像特征,并通过图像特征聚类以判断图像所属的场景;
(3)对步骤(2)得到的视频段进行特征提取,提取的视频段特征包括视觉特征、光学流图像特征、音频特征和目标特征;将提取到的特征编码成向量序列后通过基于LSTM的语义提取模型生成视频的自然语言描述;
(4)由步骤(3)所提取的视频中所有视频段的自然语言描述,利用TextRank算法获得整个视频的关键词集合和对应的关键词重要程度集合,然后将视频的关键词集合及对应的重要程度集合、自然语言描述集、视频标题、视频的作者和视频的创作时间封装成UCL,作为知识库的语料信息;
(5)利用知识库存储视频UCL和UCL之间的关系;所述知识库以实体库为基础,将视频UCL连接在实体库中的实体节点上,并基于UCL中的关键词与实体的匹配程度,计算UCL与实体之间的关联权重。
2.根据权利要求1基于UCL的可定制交互式视频制作方法,其特征在于,所述步骤(1)中利用基于FasterR-CNN的细粒度目标检测模型检测视频中出现的目标的细粒度类别,包括如下步骤:
(1.1)利用FasterR-CNN目标检测模型得到帧图像的候选框特征图集合和每个候选框的位置偏移量;
(1.2)使用三元损失函数训练各个细粒度类别判别模型,将每个候选框特征图作为候选框图像送入各个细粒度类别判别模型中进行细粒度类别判定。
3.根据权利要求1基于UCL的可定制交互式视频制作方法,其特征在于,所述步骤(1.2)中利用细粒度类别判别模型识别候选框细粒度类别包括如下步骤:
(1.2.1)在利用第i个粗粒度类别CCi的细粒度类别判别模型CCMi判别候选框图像j时,将j输入到VGG16模型中,把VGG16模型的最后一个池化层的输出送入全连接层,获得候选框图像j的特征向量fj;
(1.2.2)对特征向量fj进行归一化,获得候选框的归一化特征向量out;
(1.2.3)遍历粗粒度类别CCi图库中图库中的图片,对于图库中第m张图片imgm,其粗粒度类别CCi的细粒度类别判别模型输出为outm,类别为categoriesm;计算候选框图像j与粗粒度类别CCi图库中图片imgm的特征向量欧式距离distance(out,outm);
(1.2.4)按照如下公式得到两张图片的相似程度标志similarity_tage(out,outm);
其中,τ1与τ2为模型的超参,由交叉验证得出;取图库中与候选框图像的欧氏距离最短的图片imgs,当imgs与候选框图像的相似程度标志为1表示两张图片的相似度很高,属于同一细粒度类别,imgs的细粒度类别就是候选框图像的最终类别;当imgs与候选框图像的相似程度标志为0表示两张图片的相似度较高,属于同一粗粒度类别,imgs的粗粒度类别就是候选框图像的最终类别;当imgs与候选框图像的相似度标志为-1表示两张图片的相似度较低,属于不同类别,继续利用其他细粒度类别判别模型判别候选框图像的细粒度类别,若比较结束后仍无类别输出,则无此类别。
4.根据权利要求2基于UCL的可定制交互式视频制作方法,其特征在...
【专利技术属性】
技术研发人员:杨鹏,闵克祥,赵广振,
申请(专利权)人:南京优慧信安科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。