当前位置: 首页 > 专利查询>向仲宇专利>正文

一种计算机视觉基础网络训练识别构建方法及装置制造方法及图纸

技术编号:23558692 阅读:50 留言:0更新日期:2020-03-25 04:10
一种计算机视觉基础网络训练识别构建方法,包括如下步骤:收集样本:采集摄像头采集的视频信息,并对摄像头的拍摄角度和移动轨迹信息进行实时纪录并与视频信息中的各帧画面对应;训练:截取一定时间长度内的视频帧及对应的角度和轨迹信息作为样本信息,构建深度学习网络并输入样本信息进行训练;进行识别。本发明专利技术还公开了一种计算机视觉基础网络训练识别样本采集装置,包括至少一个摄像头和可纪录摄像头拍摄角度和轨迹的设备。本发明专利技术不再需要手动对数据标注,可以快速低成本生成大规模数据集,模型可以根据采集图像的轨迹和角度变化自动预测后续时间的图像,并合成三维空间,可以广泛用于自动驾驶,空间生成等需要生成、感知三维空间的应用情形上。

A construction method and device of computer vision basic network training recognition

【技术实现步骤摘要】
一种计算机视觉基础网络训练识别构建方法及装置
本专利技术属于图像识别领域,涉及人工智能图像识别技术,具体涉及一种计算机视觉基础网络训练识别构建方法及装置。
技术介绍
近年来随前深度学习技术兴起,计算机视觉利用深度学习技术也取得了长足的进步。在图像分类方面,计算机视觉的深度学习神经网络的学习能力已经在部分数据集中超过了人类;深度学习在计算机视觉的语义分割、关键节点检测、目标检测定位、人脸识别、自动驾驶等多个计算机视觉任务中都取得了非凡的成绩。同时我们也可以看出,取得的这些成绩主要来源于三个方面;第一、来源于算法和网络的改进,我们可以设计更精巧、更有效、更大、更深的网络,如:RESNET,FASTER-RCNN等,包含数千万的参数;第二、源自计算能力的大幅提升,现在的GPU,TPU服务器大大的提升了运算速度,使训练更大的网络成来可能;第三、来源于更多的训练数据,如IMAGENET,COCO,MINIST等数据集,其中IMAGENET包括上千万标注数据,但是标注数据需要花费非常多的人力物力。现有技术中,需要花费巨大精力进行数据集的标注,可能在某一数据集中训练取得很好成绩的模型在另一数据集上并不能取得好的成绩,即模型只能在一定范围内适用即限入了局部最优。数据集最多也就可包括上千万张图像,然而人一天眼睛看到的图像以每秒30帧,16小时为例,就会有170万张,也就是最大的数据集相当于人看6天的图像量,可见采用标注方式的图像数据集的数量有限。
技术实现思路
为克服现有技术存在的技术缺陷,本专利技术公开了一种计算机视觉基础网络训练识别构建方法及装置。本专利技术所述计算机视觉基础网络训练识别构建方法,其特征在于,包括如下步骤:收集样本:采集摄像头采集的视频信息,并对摄像头的拍摄角度和移动轨迹信息进行实时纪录并与视频信息中的各帧画面对应;训练:截取某一时间点前或后一定时间长度内的视频帧及对应的角度和轨迹信息作为网络输入,选取这一时间点后或前一定时间内的某一视频帧作为网络输出参照图像,构建深度学习网络并输入样本信息进行训练;识别:根据训练得到的深度学习网络,输入视频信息及对应的拍摄角度和移动轨迹信息,进行识别构建。优选的,所述深度学习网络为卷积层、循环层、激活函数、归一化层、全联接层中的一种或多种结合组成。优选的,所述训练的具体方式为:设置损失函数为根据样本信息训练得到的输出信息与相同时间的实际图像的差值;所述输出信息的时间点不在样本信息的时间范围内;输入样本训练目标为损失函数最小。优选的,还包括训练中的优化步骤,所述优化函数包括但不限于SGD,Adagrad,Adadelta,Adam。优选的,所述训练和识别步骤中,输入信息时一并输入待输出图像的位移信息。优选的,所述损失函数为以下任意一种:网络输出图像与对应真实图像总体像素差值绝对值之和;网络输出图像与对应真实图像特定区域的像素差值绝对值之和,所述特定区域为图像中容易识别的部分,如颜色与轮廓突出部分;将图像分块,计算每个方块内的像素平均值,然后求网络输出图像与对应真实图像的每个对应块的平均值差的绝对值和。优选的,所述识别步骤中,根据输入的视频信息,采用如下方式进行输出图形的构建:记录输入视频信息中各个位置点的坐标及角度变化;通过连续视频帧中关键位置点的坐标及角度变化规律,得出输出图形的对应位置点的坐标。本专利技术还公开了一种计算机视觉基础网络训练识别装置,其特征在于,包括至少一个摄像头和可纪录摄像头拍摄角度和轨迹的设备。优选的,所述设备为陀螺仪、速度仪等能读取物体位移、角度变化的设备。优选的,所述摄像头为多个,所述设备数量少于摄像头数量,还包括计算器,所述计算器可根据设备直接采集的某些摄像头拍摄角度和轨迹计算出未直接采集的摄像头拍摄角度和轨迹信息。本专利技术还公开了一种计算机视觉基础网络训练识别装置,包括至少一个摄像头和可纪录摄像头拍摄角度和轨迹的设备。优选的,所述设备为陀螺仪。优选的,所述摄像头为多个,所述设备数量少于摄像头数量,还包括计算器,所述计算器可根据设备直接采集的某些摄像头拍摄角度和轨迹计算出未直接采集的摄像头拍摄角度和轨迹信息。采用本专利技术所述计算机视觉基础网络训练识别构建方法及装置,不需要手动对数据标注,只需要记录录入设备的数据,可以快速低成本生成大规模数据集,从而为深度学习生成海量训练样本。同时因为移动轨迹和拍摄角度可以使模型学习到摄像头角度和轨迹变化的图像变化规律,方便模型可以根据轨迹和角度变化预测出后续图像并进行判断,可以广泛用于自动驾驶,空间生成等对识别速度有一定要求的应用情形上。附图说明图1为本专利技术采集样本的一种具体实施方式示意图;图2为根据采集样本进行训练后的输出信息的一个具体实例。具体实施方式下面结合附图,对本专利技术的具体实施方式作进一步的详细说明。本专利技术所述计算机视觉基础网络训练识别构建方法,其特征在于,包括如下步骤:收集样本:采集摄像头采集的视频信息,并对摄像头的拍摄角度和移动轨迹信息进行实时纪录并与视频信息中的各帧画面对应;训练:截取某一时间点前或后一定时间长度内的视频帧及对应的角度和轨迹信息作为网络输入,选取这一时间点后或前一定时间内的某一视频帧作为网络输出参照图像,构建深度学习网络并输入样本信息进行训练;识别:根据训练得到的深度学习网络,输入视频信息及对应的拍摄角度和移动轨迹信息,进行识别。进行图像的样本采集时,可以基于这样一种计算机视觉基础网络训练识别装置,包括至少一个摄像头和可纪录摄像头拍摄角度和轨迹的设备,所述设备可以为陀螺仪或其它设备。设备上可以设置一个摄像头与一个陀螺仪相配合,也可以采用多个摄像头和一个陀螺仪配合,如可以采用保持固定间距的双摄像头或更多摄像头,但只有一个或部分摄像头具有配合的陀螺仪,也就是摄像头数与陀螺仪数不相等,此时可以通过设置在所述计算机视觉基础网络训练识别装置的计算器,根据设备直接采集的某些摄像头拍摄角度和轨迹,计算出未直接采集的摄像头拍摄角度和轨迹信息;得到全部摄像头的轨迹和拍摄角度信息。采集中,拍摄的图像由多个帧画面组成,每一帧都应对应纪录相同时刻的地理坐标和拍摄角度。收集样本完成后得到的数据集可以不再进行数据标注;建立深度学习网络,深度学习网络的输入可以为前T1时间段里用于采集的多个摄像头视频数据及相应的轨迹角度信息;也可以选取拍摄过程中间T1时间段里的摄像头视频数据及相应的轨迹角度信息,可以只输入一个摄像头拍摄的信息,也可以输入多个摄像头拍摄的信息。视频数据可以取时间上连续的若干帧,也可以间隔选择若干帧,例如每一秒只选择3帧。构建的深度学习网络采用现有技术构建,例如可以包括卷积层、循环层、激活函数、归一化层、全联接层中的一种或多种组合而成。以RNN神经网络模型训练为例,典型训练过程如下式所示:...

【技术保护点】
1.一种计算机视觉基础网络训练识别构建方法,其特征在于,包括如下步骤:/n收集样本:采集摄像头采集的视频信息,并对摄像头的拍摄角度和移动轨迹信息进行实时纪录并与视频信息中的各帧画面对应;/n训练:截取某一时间点前或后一定时间长度内的视频帧及对应的角度和轨迹信息作为网络输入,选取这一时间点后或前一定时间内的某一视频帧作为网络输出参照图像,构建深度学习网络并输入样本信息进行训练;/n识别:根据训练得到的深度学习网络,输入视频信息及对应的拍摄角度和移动轨迹信息,进行识别构建。/n

【技术特征摘要】
1.一种计算机视觉基础网络训练识别构建方法,其特征在于,包括如下步骤:
收集样本:采集摄像头采集的视频信息,并对摄像头的拍摄角度和移动轨迹信息进行实时纪录并与视频信息中的各帧画面对应;
训练:截取某一时间点前或后一定时间长度内的视频帧及对应的角度和轨迹信息作为网络输入,选取这一时间点后或前一定时间内的某一视频帧作为网络输出参照图像,构建深度学习网络并输入样本信息进行训练;
识别:根据训练得到的深度学习网络,输入视频信息及对应的拍摄角度和移动轨迹信息,进行识别构建。


2.如权利要求1所述的计算机视觉基础网络训练识别构建方法,其特征在于,所述深度学习网络为卷积层、循环层、激活函数、归一化层、全联接层中的一种或多种结合组成。


3.如权利要求1所述的计算机视觉基础网络训练识别构建方法,其特征在于,所述训练的具体方式为:设置损失函数为根据样本信息训练得到的输出信息与相同时间的实际图像的差值;所述输出信息的时间点不在样本信息的时间范围内;
输入样本训练目标为损失函数最小。


4.如权利要求1所述的计算机视觉基础网络训练识别构建方法,其特征在于,还包括训练中的优化步骤,所述优化函数包括但不限于SGD,Adagrad,Adadelta,Adam。


5.如权利要求1所述的计算机视觉基础网络训练识别构建方法,其特征在于,所述训练和识别步骤中,输入信息时一并输入...

【专利技术属性】
技术研发人员:向仲宇
申请(专利权)人:向仲宇
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1