【技术实现步骤摘要】
一种基于transformer的孪生网络目标搜索系统
[0001]本专利技术属于计算机视觉中图像检索和目标检测领域,本专利技术公开了一种基于transformer的孪生网络目标搜索系统。
技术介绍
[0002]计算机视觉就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取
‘
信息
’
的人工智能系统。感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。图像处理技术把输入图像转换成具有所希望特性的另一幅图像。在计算机视觉研究中经常利用图像处理技术进行预处理和特征提取,让计算机具有视觉、听觉和说话等能力。
[0003]目标检测与识别在生活中多个领域中有着广泛的应用,它是将图像或者视频中的目标与不感兴趣的部分区分开,判断是否存在目标,若存在目标则确定目标的位置 ...
【技术保护点】
【技术特征摘要】
1.一种基于transformer的孪生网络目标搜索系统,其特征在于,包括以下步骤:(1)采集图像数据,作为待搜索图;并在部分待搜索图中提取出感兴趣目标,作为查询图,设计和孪生网络目标搜索训练模型;(2)进行摄像头区域选择,选择摄像头群组确定搜索区域,输入待搜索目标图片;(3)搜索任务启动,通过视频取帧的方式从摄像头内等时间间隔地获取场景图片,图片通过模型进行检测,检测出每一个目标,将目标与待搜索图做特征比较,计算目标匹配度,取最大值,若匹配度超过设定阈值,将搜索图片序号加入结果队列;(4)若结果队列有新纪录产生,则将当前检测图片存入后台服务器设置好的静态资源目录下,并将信息存入数据库,前端界面根据需求从数据库筛选显示对应目标的搜索结果信息。2.根据权利要求1所述的一种基于transformer的孪生网络目标搜索系统,其特征在于,步骤(1)具体方法如下:(1.1)采集n张搜索图记为,每张搜索图默认大小为224*224,n张搜索图中目标个数分别为切割出查询图为,将每张查询图由原尺寸放缩到大小为56*56,记为,然后对每张查询图进行人工分类,把同一个目标的查询图分为一类,假设可以将查询图分为count类,记为,对应count个文件夹将每张查询图放入对应类的文件夹中,然后建立一个字典,值对应为每一张搜索图,记为,中的每个值对应的为当前搜索图中存在所有目标的类名;(1.2)设计孪生网络目标搜索模型,模型特征提取主干分为vit1、vit2,vit1用来提取搜索图的特征;然后选择16张查询图,选择规则为:查询当前搜索图的索引,从不是当前索引的类别文件夹中随机选择4张查询图,从索引的所有类别文件中共选择12张查询图,其中每个类别文件夹随机选取3张查询图,若可以选择出12张查询图,则将这16张56*56的查询图以随机顺序拼接为一张224*224的图片;vit2用来提取“查询拼接图”中对应一系列查询图的特征,vit1和vit2进行权值共享;(1.3)vit1提取的特征通过DETR目标检测头获得一个,DETR目标检测头的作用是预测搜索图中的每个目标的位置,vit1与vit2提取的特征共同获得一个,与通过比例关系进行组合。3.根据权利要求2所述的一种基于transformer的孪生网络目标搜索系统,其特征在于,步骤(1.2)中:若不可以选择出12张查询图,则用数据增强的方式,每次从已经选择出的查询图中随机选择一张查询图进行处理,通过翻转或旋转的方式,产生一张新的查询图,大小仍为56*56,重复数据增强操作,直到查询图的总数达到16张,则数据增强操作结束,然后将这16张56*56的查询图拼接为一张224*224的图片,这张新拼接的图片命名为“查询拼接图”,记为。4.根据权利要求2所述的一种基于transformer的孪生网络目标搜索系统,其特征在于,步骤(1.2)中,(1.2.1)添加DETR目标检测头,可以从每张待搜索图中检测并框出每一个目标,并且获
得每个目标的坐标;(1.2.2)数据分为n组,每组为,其中为第u张搜索图,为第v张查询拼接图;通过vit1提取特征,然后通过DETR目标检测头,得到搜索图中个目标的特征向量,将m个目标的特征向量放缩到56*56*384的特征维度,对应特征向量为,通过vit2提取特征,由于是由16张56*56大小的查询图拼接而成,即可以根据固定的坐标位置提取特征得到对应的16个特征向量;(1.2.3)对于搜索图产生的特征向量,查询拼接图产生的特征向量,两两比较,二者属于同一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。