当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于自监督训练的视频点位跟踪方法技术

技术编号:26731300 阅读:41 留言:0更新日期:2020-12-15 14:33
本发明专利技术公开了一种基于自监督训练的视频点位跟踪方法,包括获取训练数据集;构建神经网络模型提取特征点的位置、描述子并计算keypoint的置信度分数;对神经网络模型进行自监督训练得到训练后的视频网络模型;提取目标视频的特征描述子;对目标视频的前后帧的特征描述子进行匹配和筛选,并构建单应性矩阵;根据目标视频的第一帧所给出的目标点和单应性矩阵得到转换后的目标位置,完成视频点位跟踪。本发明专利技术通过构建神经网络并进行训练,得到视频网络模型,并采用视频网络模型对目标视频的目标点进行定位和跟踪,从而实现了目标视频的视频点跟踪,而且跟踪的过程不会产生畸变和变形,可靠性高、实时性好且效果好。

【技术实现步骤摘要】
一种基于自监督训练的视频点位跟踪方法
本专利技术属于图像处理领域,具体涉及一种基于自监督训练的视频点位跟踪方法。
技术介绍
随着经济技术的发展和人们生活水平的提高,观看视频已经成为了人们生产和生活中必不可少的组成部分。在一段视频中,在一段时间内,视频中的场景往往是相同的。而如何在该相同的场景下的特定位置,动态的加入图标(比如广告、警示语等),并达到真实和谐的效果,一直是研究人员的研究重点之一。针对动态图标的加入,一直存在如下几个挑战:1.如何对相机运动进行一个精准地估计;2.处理光照影响;3.妥当处理景深形变;4.物体的互相遮挡等。针对上述挑战,目前解决的方法是利用SIFT方法提取特征点,进行前后图像帧的特征点匹配,从而得到变换矩阵:从第一帧给到的目标位置中,可以得到目标在后续帧的位置。但是,现有方法的缺点在于:基于局部检测提取的特征点,往往会导致提取的特征点的位置不够准确;而特征点的位置不准确,体现在视频上,就会出现加入的标签产生偏移和失真;而且目前的方法的计算量大,延时严重,实时性较差。<br>
技术实现思路
<本文档来自技高网
...

【技术保护点】
1.一种基于自监督训练的视频点位跟踪方法,包括如下步骤:/nS1.获取训练数据集;/nS2.构建神经网络模型,用于提取特征点的位置、获取描述子并计算keypoint的置信度分数;/nS3.采用步骤S1获取的训练数据集,对步骤S2构建的神经网络模型,进行自监督训练,从而得到训练后的视频网络模型;/nS4.将要进行点位跟踪的目标视频输入到步骤S3构建的视频网络模型中,从而提取目标视频的特征描述子;/nS5.对目标视频的前后帧的特征描述子进行匹配和筛选;/nS6.根据步骤S5的匹配和筛选结果,构建单应性矩阵;/nS7.根据目标视频的第一帧所给出的目标点和步骤S6得到的单应性矩阵,得到转换后的目标位置...

【技术特征摘要】
1.一种基于自监督训练的视频点位跟踪方法,包括如下步骤:
S1.获取训练数据集;
S2.构建神经网络模型,用于提取特征点的位置、获取描述子并计算keypoint的置信度分数;
S3.采用步骤S1获取的训练数据集,对步骤S2构建的神经网络模型,进行自监督训练,从而得到训练后的视频网络模型;
S4.将要进行点位跟踪的目标视频输入到步骤S3构建的视频网络模型中,从而提取目标视频的特征描述子;
S5.对目标视频的前后帧的特征描述子进行匹配和筛选;
S6.根据步骤S5的匹配和筛选结果,构建单应性矩阵;
S7.根据目标视频的第一帧所给出的目标点和步骤S6得到的单应性矩阵,得到转换后的目标位置,从而完成视频点位跟踪。


2.根据权利要求1所述的一种基于自监督训练的视频点位跟踪方法,其特征在于步骤S1所述的训练数据集,为“马栏山杯”视频特定点位跟踪数据集;步骤S3所述的对步骤S2构建的神经网络模型,进行自监督训练,具体为采用图像增强算法形成新的图片后,再对步骤S2构建的神经网络模型进行自监督训练;所述的采用图像增强算法形成新的图片,具体包括对图像进行若干次随机旋转,和对图像进行缩放;步骤S4所述的将要进行点位跟踪的目标视频输入到步骤S3构建的视频网络模型中,从而提取目标视频的特征描述子,具体为采用步骤S3构建的视频网络模型对目标视频进行特征点提取,从而得到关键点的位置和特征描述子;步骤S6所述的根据步骤S5的匹配和筛选结果,构建单应性矩阵,具体为根据步骤S5得到的配对的点集构建单应性矩阵H。


3.根据权利要求1所述的一种基于自监督训练的视频点位跟踪方法,其特征在于步骤S5所述的对目标视频的前后帧的特征描述子进行匹配和筛选,具体为采用如下步骤进行匹配和筛选:对于目标视频,任意两帧图片所提取的特征点集合Q1和Q2,计算点集的特征描述子之间的L2距离d,并删除距离大于阈值t的点,最后根据距离分数将点与点进行配对。


4.根据权利要求3所述的一种基于自监督训练的视频点位跟踪方法,其特征在于所述的对目标视频的前后帧的特征描述子进行匹配和筛选,具体为定义从两张图片A和B提取的点集合为po∈{A,B},网络每次输出三个张量C(po)、P(po)和F(po),设定两张图片经过网络输出以后分别为Z(A)和Z(B),则距离G=Z(A)×Z(B);其中G为距离矩阵,gij为矩阵G中的元素,为经过T变换的图A中点,为图B的点,T为单应性变换矩阵,||||2为欧氏距离;若A中的pointi与B中的pointj相互的距离gij小于阈值t,则将A中的pointi和B中的pointj一同加入集合Q,集合Q中的点的下标设置为k,集合Q中的第k个点的confidense为Ck(po),position为Pk(po),descriptor为Fk(po),位置距离为式中||||为位置距离。


5.根据权利要求1所述的一种基于自监督训练的视频点位跟踪方法,其特征在于步骤S7所述的根据目标视频的第一帧所给出的目标点和步骤S6得到的单应性矩阵,得到转换后的目标位置,具体为采用如下公式计算得到转换后的目标位置:






式中x1为变换后的目标位置的横坐标,y1为变换后的目标位置的纵坐标,x2为目标视频的第一帧所给出的目标点的横坐标,y2为目标视频的第一帧所给出的目标点纵坐标,h00~h22为步骤S6得到的单应性矩阵H中的元素,且


6.根据权利要求1~5之一所述的一种基于自监督训练的视频点位跟踪方法,其特征在于步骤S2所述的构建神经网络模型,具体为采用如下模型作为神经网络模型:
A.构建三层神经网络模型,包括Backbone、Featuremap、Confidence分支、Position分支和Discriptor分支;Backbone的输入端为神经网络模型的输入端,Backbone的输出端连接Featuremap的输入端,Featuremap的输出端同时连接Confidence分支的输入端、Position分支的输入端和Discriptor分支的输入端;...

【专利技术属性】
技术研发人员:李智勇王赛舟肖德贵李仁发
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1