一种基于deepstream的图书识别方法技术

技术编号:34514943 阅读:14 留言:0更新日期:2022-08-13 21:02
本发明专利技术公开了一种基于deepstream的图书识别方法,属于图书分拣技术领域,所述识别方法通过以流媒体相机为输入源,获取外部图像,将视频信号以rtsp流的形式传输,在视频实时传输到微型计算机后,使用基于gstream的deepstream技术对rtsp流进行实时处理,通过建立管道对视频信号完成解析,再通过在管道上建立的插件,完成对图书的识别。采用本发明专利技术方法对图书进行识别,可以弥补现有技术中对于图书识别的场景以及投入段的重叠,并且减少对硬件的要求。的要求。的要求。

【技术实现步骤摘要】
一种基于deepstream的图书识别方法


[0001]本专利技术属于图书分拣
,具体涉及一种基于deepstream的图书识别方法。

技术介绍

[0002]目前在图书馆分拣过程中主要分为投入段、输送段、识别段、分拣段等几大部分,但是由于使用对象特殊性,图书分拣系统与其他分拣系统有着明显的差异。比如:
[0003]1、从投入段来看,图书分拣系统要求进入分拣系统的图书不可以重叠,若是图书重叠之,识别系统所看到的图书外观就发生了很大的变化,在后续的识别过程中、分拣过程中就会大幅地提升错误率。
[0004]2、输送段需要根据图书馆场地不同,通过为多样的组合形式,最终将图书运送至分拣机进行分拣,并且每本图书所放的间距都有要求,故而增加了人力物力。
[0005]3、在硬件方面,增加多条主线汇聚后再进入最终的分拣部分,使得最终图书量非常大,对硬件的要求非常高,对识别的精度要求也随之提高。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种基于deepstream的图书识别方法,可以弥补现有技术中对于图书识别的场景以及投入段的重叠,并且减少对硬件的要求。
[0007]为达到上述目的,本专利技术提供如下技术方案:
[0008]本专利技术一种基于deepstream的图书识别方法,所述识别方法通过以流媒体相机为输入源,获取外部图像,将视频信号以rtsp流的形式传输,在视频实时传输到微型计算机后,使用基于gstream的deepstream技术对rtsp流进行实时处理,通过建立管道对视频信号完成解析,再通过在管道上建立的插件,完成对图书的识别。
[0009]进一步,所述deepstream的视频处理技术通过接入多路视频实时处理,完成多摄像头对一机器的处理。
[0010]进一步,Yolo v4在基准网络和输出层之间添加了SPP模块与FPN+PAN两种方式,SPP模块通过融合不同大小的最大池化层来获得鲁棒的特征表示,最大池化层采用padding操作,移动步长为1。
[0011]进一步,Yolo v4的neck结构采用FPN+PAN模式,FPN是自顶向下的,将高层特征通过上采样和低层特征做融合得到进行预测的特征图,两部分通过FPN+PAN结构进行融合。
[0012]本专利技术的有益效果在于:
[0013]本专利技术一种基于deepstream的图书识别方法,通过采用机器视觉技术,可以模拟人的视觉功能,从客观的事物中提取特征信息,可有效的判断各个阶段中的图书是否出现重叠,以及传输篮中的图书是否清空,可以弥补现有技术中对于图书识别的场景以及投入段的重叠,并且减少对硬件的要求。
[0014]本专利技术的其他优点、目标和特征将在随后的说明书中进行阐述,并且在某种程度上对本领域技术人员而言是显而易见的,或者本领域技术人员可以从本专利技术的实践中得到
教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0015]为了使本专利技术的目的、技术方案和有益效果更加清楚,本专利技术提供如下附图进行说明:
[0016]图1为本专利技术FPN+PAN模式的示意图。
具体实施方式
[0017]本专利技术一种基于deepstream的图书识别方法,所述识别方法通过以流媒体相机为输入源,获取外部图像,将视频信号以rtsp流的形式传输,在视频实时传输到微型计算机后,使用基于gstream的deepstream技术对rtsp流进行实时处理,通过建立管道对视频信号完成解析,再通过在管道上建立的插件,完成对图书的识别。本专利技术通过采用机器视觉技术,可以模拟人的视觉功能,从客观的事物中提取特征信息,可有效的判断各个阶段中的图书是否出现重叠,以及传输篮中的图书是否清空。基于gstream的deepstream视频处理技术通过接入多路视频实时处理,完成多摄像头对一机器的处理。相对与传统的分拣机器一摄像头对一机器的情况,能有效的降低机器成本。
[0018]本实施例中,Yolo v4在基准网络和输出层之间添加了SPP模块与FPN+PAN两种方式,SPP模块通过融合不同大小的最大池化层来获得鲁棒的特征表示,最大池化层采用padding操作,移动步长为1。比如输入特征图的大小为13x13,使用的池化核大小为5x5,padding=2,因此池化后的特征图大小仍然是13
×
13。SPP模块的方式能够更有效地增加主干特征的接收范围,显著地分离了最重要的上下文特征。池化层是模仿人的视觉系统对数据进行降维,用更高层次的特征表示图像。实施池化的目的:1)降低信息冗余;2)提升模型的尺度不变性、旋转不变性;3)防止过拟合。
[0019]本实施例中,Yolo v4的neck结构采用FPN+PAN模式,FPN是自顶向下的,将高层特征通过上采样和低层特征做融合得到进行预测的特征图,两部分通过FPN+PAN结构进行融合。如图1所示,为FPN+PAN模式的示意图。FPN,即特征金字塔网络,通过在特征图上面构建金字塔,可以更好地解决目标检测中的尺度问题。PAN则是借鉴了图像分割领域PANet算法中的创新点,它是一种自底向上的结构,它在FPN的基础上增加了两个PAN结构,更好地解决检测中的尺度问题,通过增加网络的深度,提升了网络的鲁棒性。FPN层自顶向下可以捕获强语义特征,而PAF则通过自底向上传达强定位特征,通过组合这两个模块,可以很好的完成目标定位的功能。
[0020]最后说明的是,以上优选实施例仅用以说明本专利技术的技术方案而非限制,尽管通过上述优选实施例已经对本专利技术进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本专利技术权利要求书所限定的范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于deepstream的图书识别方法,其特征在于:所述识别方法通过以流媒体相机为输入源,获取图书的外部图像,将视频信号以rtsp流的形式传输,在视频实时传输到微型计算机后,采用Yolo v4算法,使用基于gstream的deepstream技术对rtsp流进行实时处理,通过建立管道对视频信号完成解析,再通过在管道上建立的插件,完成对图书的识别,所述deepstream的视频处理技术通过接入多路视频实时处理,完成多摄像头对一机器的处理...

【专利技术属性】
技术研发人员:袁杨宇刘宽樊宸铭王鹏
申请(专利权)人:重庆亲禾智千科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1