The invention discloses a scene video text tracking method based on energy minimization, which relates to the field of computer vision. The method includes: describing the linear energy function of fusion detection energy model, apparent energy model and mutually exclusive energy model of tracking model; solving the tracking model; and specifying the tracking process. The invention proposes a new text tracking method for scene video, and designs corresponding detection energy model, apparent energy model and mutually exclusive energy model for scene video text. Combining the three methods, the overall energy is obtained, and the optimal tracking trajectory set is obtained by minimizing the overall energy. It is considered that if the trajectory set loses the least energy, the overall optimum is obtained.
【技术实现步骤摘要】
基于能量最小化的场景视频文本跟踪方法
本专利技术涉及计算机视觉领域,具体涉及一种基于能量最小化的场景视频文本跟踪方法。
技术介绍
视频中文本所包含的语义信息对于视频分析与检索有着重要作用。它可以应用在多个方面,例如实时翻译系统,辅助驾驶系统和机器人导航系统等。近年来,场景视频的文本跟踪也引起了相关领域学者的关注,关于这方面的研究也有一些成果。目前文本跟踪的方法多数是属于Tracking-by-detection的框架,Tracking-by-detection可以看作一个数据关联问题,即将邻近帧的检测信息通过跟踪的方法关联到一起。文献1(TanakaM,GotoH.AutonomousTextCapturingRobotUsingImprovedDCTFeatureandTextTracking[C]//InternationalConferenceonDocumentAnalysisandRecognition.IEEEComputerSociety,2007:1178-1182.)和文献2(GotoH,TanakaM.Text-TrackingWearable ...
【技术保护点】
1.一种基于能量最小化的场景视频文本跟踪方法,其特征在于,所述方法提供了文本的互斥能量模型,并提出融合检测能量模型、表观能量模型和互斥能量模型的线性能量函数,通过对全局能量的最小化,求得文本跟踪的最佳匹配状态。
【技术特征摘要】
1.一种基于能量最小化的场景视频文本跟踪方法,其特征在于,所述方法提供了文本的互斥能量模型,并提出融合检测能量模型、表观能量模型和互斥能量模型的线性能量函数,通过对全局能量的最小化,求得文本跟踪的最佳匹配状态。2.根据权利要求1所述的方法,其特征在于,所述方法具体包括:步骤1:描述跟踪模型的融合检测能量模型、表观能量模型和互斥能量模型的线性能量函数;步骤2:对跟踪模型进行求解;步骤3:具体跟踪过程。3.根据权利要求2所述的方法,其特征在于,通过检测模型确定目标为文本,通过表观能量模型,区分外观、大小、位置区别较大的文本目标,通过互斥能量模型,引入同一帧中不同文本之间的联系,进一步区分相近相似文本。4.根据权利要求2所述的方法,其特征在于,融合检测能量模型、表观能量模型和互斥能量模型的线性能量函数表示为:其中,Edet是检测能量模型,Eapp是目标表观能量模型,Eexc是互斥能量模型,α和β是加权系数,N是视频出现的目标总数,E(Ti,t)是第i个目标在第t时刻的递推能量,si和ei是第i个目标的起止时间,出现在第t帧中的目标区域i表示为Ti,t,Ddet(Ti,t)、Dapp(Ti,t)和Dexc(Ti,t)分别表示对目标Ti,t的检测能量、表观能量和互斥能量。5.根据权利要求4所述的方法,其特征在于,所述检测能量模型的检测能量函数Edet的定义如下,Ddet(Ti,t)=1-Cdet(Ti,t)其中N为整个视频中的目标总数,si和ei为第i个目标区域出现的起始帧号和结束帧号,出现在第t帧中的目标区域i表示为Ti,t,Cdet(Ti,t)由文本检测器提供,表示区域i是文本的置信度。6.根据权利要求4所述的方法,其特征在于,所述表观能量模型的表观能量函数确定步骤如下:对于t-1和t时刻两帧图像,其中t-1时刻包含nt-1个目标区域,即St-1={Tt,t-1|i=1,2,…,nt-1},t时刻包含nt个区域,有St={Ti,t|i=1,2,…,nt},则表观能量函数如下,其中Ti,t表示在第t帧中的目标区域i,Tj,t-1表示在t-1帧中的目标区域j,dapp(Tm,Tn)表示目标区域m和目标区域n的表观特征的距离,距离越大,表示两个目标区域的表观相似度越小,αapp、βapp以及γapp为权值系数,各项特征距离定义如下,其中,m、n是两个目标区域的下标,Aream=wm*hm是目标区域m外接矩形的面积,wm为目标区域m外接矩形的宽,hm为目标区域m外接矩形的高,是目标区域m和目标区域n的面积特征距离,是两个目标区域m、n的中心点坐标的欧式距离,Posm是目标区域m的中心点坐标,Posn是目标区域n的中心点坐标,为两个目标区域m、n的灰度直方图的Bhattacharyya距离,Hm...
【专利技术属性】
技术研发人员:殷绪成,蒙丽宇,裴唯一,田澍,朱超,
申请(专利权)人:北京科技大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。