本发明专利技术涉及视频处理技术领域,为提出适用于该特点的基于带权重的原型分析方法的多视频摘要技术,使之在有效的先验信息的辅助下,充分地利用数据的特有信息。本发明专利技术采用的技术方案是,基于带权重的原型分析技术的多视频摘要方法,首先利用带权重的图模型建模视频帧之间的关系,从而获取带权重的原型分析所需的权重矩阵;然后利用带权重的原型分析获取关键帧,生成给定长度的视频摘要。本发明专利技术主要应用于视频处理场合。
【技术实现步骤摘要】
基于带权重的原型分析技术的多视频摘要方法
本专利技术涉及视频处理
,具体讲,涉及基于带权重的原型分析技术的多视频摘要方法。
技术介绍
随着信息技术的快速发展,视频数据大量涌现,成为人们获取信息的重要途径之一。然而,由于视频数量的剧增,大量视频数据中出现冗余和重复的信息,这使用户快速获取所需信息变得困难。因此,在这种情况下,迫切需要一种能对同一主题下的海量视频数据进行整合、分析的技术,来满足人们想要快捷、准确地浏览视频主要信息的需求,提高人们获取信息的能力。多视频摘要技术作为解决上述问题的有效途径之一,在过去的几十年里引起了越来越多的研究人员的关注。多视频摘要技术是一种基于内容的视频数据压缩技术,旨在将同一事件下的相关主题的多个视频进行分析、整合,提取出多个视频中的主要内容,并将提取的内容按照某种逻辑关系呈现给用户。目前对于多视频摘要主要从三个方面进行分析:1)覆盖率;2)新颖性;3)重要性。覆盖率指的是所提取的视频内容能够覆盖同一主题下多个视频的主要内容。冗余性指的是去除多视频摘要中的重复的、冗余的信息。重要性指的则是根据某些先验信息提取视频集中重要的关键镜头,从而提取出多个视频中重要的内容。尽管许多单视频摘要已经提出,但是对于多视频摘要方法的研究却较少,仍处于初步阶段。这主要有两个原因:1)一是由于同一事件下多个视频主题的多样性以及视频之间主题的交叉性。主题多样性指的是同一事件下的多个视频的信息侧重点不同,具有多个子主题。而主题交叉性是指同一事件下的视频之间内容具有交叉性,既有相似的内容,也有不同的信息内容。2)二是由于多视频数据对同一内容所表现出来的音频信息,文本信息和视觉信息可能存在较大差别。这些原因使得多视频摘要的研究难于传统的单视频摘要。在过去的几十年中,人们针对多视频数据集的特点,提出了一些多视频摘要的方法。其中,基于复杂的图聚类的多视频摘要方法是一个比较经典的方法。该类方法通过提取视频相应脚本信息的关键词和视频的关键帧,构建复杂的图,并在此基础上利用图聚类算法实现摘要。但是该方法主要针对新闻视频,对于没有视频脚本信息的视频集,该方法就失去了意义,另外由于同一主题下的多个视频包含的内容具有多样性和冗余性,仅用聚类的方法虽然满足了视频内容的最大覆盖条件,针对多视频摘要,只用视频的视觉信息聚类效果较差,结合其他模态虽有一定的帮助,但复杂度较大。多视频摘要中存在多种模态的信息,如视频的文本信息、视觉信息、音频信息等。BalancedAV-MMR(BalancedAudioVideoMaximalMarginalRelevance)是一种有效利用视频多种模态信息的多视频摘要技术,它通过分析视频的视觉信息、音频信息以及视觉信息和音频信息中的语义信息,包括音频,人脸以及时间特征等这些对于视频摘要具有重要意义的信息。该方法有效地利用了视频的多模态信息,但提取的视频摘要并未达到较好的效果。近年来,人们提出了一些新颖的方法。其中,利用视频的视觉共现特性(visualCo-occurrence)实现多视频摘要是其中一个较新颖的方法。该方法认为重要的视觉概念往往重复出现在同一主题下的多个视频中,并根据这一特点提出了最大二元组查找算法(MaximalBicliqueFinding),提取多视频的稀疏共现模式,从而实现多视频摘要。但是该方法仅适用于特定的数据集,对于视频中重复性较小的视频集,该方法就失去了意义。此外,为了利用更多的相关信息,相关研究者提出了利用手机上的GPS和罗盘等传感器获取手机视频拍摄过程中的地理位置等信息,并由此辅助判断视频中的重要信息,生成多视频摘要。另外,在该领域提出了利用网页图片这一先验信息作为辅助信息,更好地实现多视频摘要。目前,由于多视频数据的复杂性,多视频摘要的研究并没有达到理想效果。因此,如何更好地利用多视频数据的信息,来更好地实现多视频摘要,成为目前相关学者研究的热点。为此,本文提出了利用原型分析技术(ArchetypalAnalysis)实现多视频摘要。原型分析技术(ArchetypalAnalysis,AA)将数据集中的每个数据点视为一组单一的、可观察到的原型的混合结果,而原型本身限制为数据集中数据点的稀疏混合,且一般位于数据集的边界处。AA模型广泛应用在不同的领域,比如说经济学、天体物理学中和模式识别中。AA模型对特征提取和维数降低的有用性为各种领域的机器学习算法所利用,比如说从计算机视觉,神经图像,化学,文本挖掘和协同过滤等领域。
技术实现思路
为克服现有技术的不足,本专利技术旨在提出适用于该特点的基于带权重的原型分析方法的多视频摘要技术,使之在有效的先验信息的辅助下,充分地利用数据的特有信息。本专利技术采用的技术方案是,基于带权重的原型分析技术的多视频摘要方法,首先利用带权重的图模型建模视频帧之间的关系,从而获取带权重的原型分析所需的权重矩阵;然后利用带权重的原型分析获取关键帧,生成给定长度的视频摘要。获取带权重的原型分析所需的权重矩阵具体步骤:构建一个带权重的简单图,给定同一事件下的l个视频,进行预处理后得到n帧候选关键帧,表示为特征向量X={f1,f2,f3,...,fn},fi∈Rm,fi表示第i个候选关键帧的m维特征向量,将候选关键帧作为顶点构建视觉相似性图G=(X,E,W),其中X表示顶点,E表示视频帧之间的连接边,W表示边的视觉连接权重,为了计算W,首先计算视频帧之间的余弦相似性A(fi,fj),其计算公式如方程(1):这里sim(i,j)表示第i帧和第j张网络图像之间的余弦相似性;构建一个带权重的图模型,将利用视频之间的相似性为跨视频的视频帧之间的连接边额外添加一个权重,为了呈现这种关系,设计权重矩阵Wv,其具体计算方式如方程(2):这里v(f)表示包含帧f的视频,sim(v(fi),v(fj))表示包含帧fi的视频与包含帧fj的视频之间的相似性,这里的相似性是指根据视频的文本信息获得的余弦相似性,上述所给的表达式仅仅为跨视频的帧之间的连接边增加权重,而视频内之间帧的连接边权重保持不变;计算视频帧与所有网络图像的平均相似性,并将该相似性作为视频帧的重要性标准,其具体计算方式如公式(3)所示:其中gj表示第j张网络图像,sim(fi,gj)表示视频帧fi与gj的余弦相似性;构建的带权重的图模型的边的连接权重矩阵W的计算如方程(4)所示:一个实例中具体步骤如下:1)提取视频帧和基于查询的网络图像的视觉特征和视频对应的文本特征:视频帧的视觉特征表示为X={f1,f2,f3,...,fn},fi∈Rm,网络图像的视觉特征表示为{g1,g2,...,gk},gk∈Rm,gk表示第k张网络图像的m维特征向量,视频的文本特征表示为{t1,t2,...,tl},ta∈Rd,ta表示第a个视频的文本特征;2)构建带权重的完全图:为了建模视频帧之间的相关关系,将视频帧看作顶点构建带权重的简单图G=(X,E,W),并利用公式(1)-(4)求解矩阵W;3)利用步骤2获得的权重矩阵W作为原型分析问题的权重,并用公式构建输入矩阵4)在给定的上执行带权重的原型分析,并利用估计算法交替获得最优解矩阵P和Q,P表示原型重构输入的系数矩阵,Q表示输入重构原型的系数矩阵;5)根据公式计算每本文档来自技高网...

【技术保护点】
一种基于带权重的原型分析技术的多视频摘要方法,其特征是,首先利用带权重的图模型建模视频帧之间的关系,从而获取带权重的原型分析所需的权重矩阵;然后利用带权重的原型分析获取关键帧,生成给定长度的视频摘要。
【技术特征摘要】
1.一种基于带权重的原型分析技术的多视频摘要方法,其特征是,首先利用带权重的图模型建模视频帧之间的关系,从而获取带权重的原型分析所需的权重矩阵;然后利用带权重的原型分析获取关键帧,生成给定长度的视频摘要。2.如权利要求1所述的基于带权重的原型分析技术的多视频摘要方法,其特征是,获取带权重的原型分析所需的权重矩阵具体步骤:构建一个带权重的简单图,给定同一事件下的l个视频,进行预处理后得到n帧候选关键帧,表示为特征向量X={f1,f2,f3,...,fn},fi∈Rm,fi表示第i个候选关键帧的m维特征向量,将候选关键帧作为顶点构建视觉相似性图G=(X,E,W),其中X表示顶点,E表示视频帧之间的连接边,W表示边的视觉连接权重,为了计算W,首先计算视频帧之间的余弦相似性A(fi,fj),其计算公式如方程(1):这里sim(i,j)表示第i帧和第j张网络图像之间的余弦相似性;构建一个带权重的图模型,将利用视频之间的相似性为跨视频的视频帧之间的连接边额外添加一个权重,为了呈现这种关系,设计权重矩阵Wv,其具体计算方式如方程(2):这里v(f)表示包含帧f的视频,sim(v(fi),v(fj))表示包含帧fi的视频与包含帧fj的视频之间的相似性,这里的相似性是指根据视频的文本信息获得的余弦相似性,上述所给的表达式仅仅为跨视频的帧之间的连接边增加权重,而视频内之间帧的连接边权重保持不变;计算视频帧与所有网络...
【专利技术属性】
技术研发人员:冀中,江俊杰,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。