【技术实现步骤摘要】
一种基于语义自挖掘的视频摘要生成方法
[0001]本专利技术涉及一种基于语义自挖掘的视频摘要生成方法,属于计算机视觉
技术介绍
[0002]多年来,由各种视频捕获设备获取到的视频数量呈指数级增长。目前,人们在检索视频中感兴趣的内容时,需要完整地观看视频,这对于分析和存储这些海量数据来说既耗时又昂贵。视频摘要是视频理解领域的一项重要而基本的任务,它旨在分析视频中的时空特征后,从完整的视频中挑选关键片段。
[0003]受益于深度学习强大的特征表征能力,视频摘要的实现方式已逐渐从依赖于手工特征的传统方法转变为现代方法。这些方法可分为三类,分别为无监督方法、弱监督方法和有监督方法。无监督方法侧重于设计各种标准,弱监督方法重点探索与视频内容的相关信息的作用。与上述两种方法不同,有监督方法利用人工标注来学习有效的特征表示,因此其摘要性能最佳。
[0004]视频序列中的上下文信息对于视频摘要任务来说至关重要。当前的大多数方法通常在提取帧级视觉特征后采用聚合机制,例如递归神经网络(RNN),来挖掘上下文信息。例如, ...
【技术保护点】
【技术特征摘要】
1.一种基于语义自挖掘的视频摘要生成方法,其特征在于,包括下述步骤:S1,读取视频帧序列,并利用特征提取器提取帧级视觉特征;S2,构建视频摘要生成模型,将所述帧级视觉特征送入所述视频摘要生成模型中生成预测得分向量,所述视频摘要生成模型包括:图表征模块,所述图表征模块以所述帧级视觉特征作为输入,该模块通过在节点间建立时序边、视觉相似边和视觉差异边实现节点间充分的消息传递,使所述视频摘要生成模型完整地了解视频的故事线;语义内容编码模块,所述语义内容编码模块以所述帧级视觉特征作为输入,该模块利用注意力机制从粗略的语义表征出发,动态地将完整的帧级视觉特征序列编码为简洁、信息丰富的精细的语义表征,实现由粗到细的语义感知过程;信息交互模块,所述信息交互模块以所述图表征模块的输出和所述语义内容编码模块的输出共同作为输入,该模块用于将视频本身潜在的语义信息嵌入至捕获到的时间线索中,进一步提升模型对视频中关键内容的感知能力;线性回归模块,所述线性回归模块将所述信息交互模块的输出作为输入,该模块利用全连接层将高维特征映射为预测得分向量来表示每帧被选择作为摘要结果的概率;S3,构建均方误差损失函数,增加预测得分与人工标注得分之间的一致性,并迭代优化网络参数,训练所述视频摘要生成模型;S4,利用S3训练得到的视频摘要生成模型对输入视频执行上述S1和S2,根据预测得分向量生成关键镜头集合。2.根据权利要求1所述的基于语义自挖掘的视频摘要生成方法,其特征在于,构建所述图表征模块,包括:将所述帧级视觉特征建模为图模型,其中图节点集由各个特征向量构成,图边集表示特征向量之间的交互关系;构建用于建模局部时间线索的时序边和用于建模非局部时间线索的视觉相似边和视觉差异边;在时序边上采用一维卷...
【专利技术属性】
技术研发人员:张云佐,刘亚猛,张天,武存宇,郑宇鑫,于璞泽,刘婷,康伟丽,朱鹏飞,
申请(专利权)人:石家庄铁道大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。