一种基于计算机视觉的图书盘点方法技术

技术编号:34467680 阅读:68 留言:0更新日期:2022-08-10 08:41
本发明专利技术介绍了一种基于计算机视觉的图书盘点方法,其包括:步骤S1、通过相机获取单层书架的图片序列;步骤S2、对图片序列进行光流预估,得到相邻两帧间每个像素的移动方向和距离;步骤S3、构建并训练旋转实例目标检测模型,对图片序列进行实例目标检测,并进行实例分割,获得书脊和索书号在当前图片的位置,并分配给相应的图书;步骤S4、训练文本识别模型,得到每张图片中包含的图书书名和索书号文本及文本所在的位置;步骤S5、进行目标跟踪,得到每个图书的具体位置和所有识别结果;步骤S6、对所有识别结果进行修正和匹配,得到真实书名结果,并输出图书实例位置和匹配的图书信息作为盘点结果。通过上述步骤最终实现图书盘点的高效率和高准确性。效率和高准确性。效率和高准确性。

【技术实现步骤摘要】
一种基于计算机视觉的图书盘点方法


[0001]本专利技术属于计算机视觉设计领域,具体涉及一种基于计算机视觉的图书盘点方法。

技术介绍

[0002]图书馆的图书流动性非常大,需要经常上新、倒架和整理读者归还的图书,而读者归还读书和工作人员整架过程中的失误会导致图书错架,这会反过来影响工作人员的整架效率,并使得读者找不到想要的图书。目前仍然有大量图书馆的图书管理采用扫描图书条码的方式,过程耗时又耗力:需要人工扫描,一次只能扫描一本图书;考虑到图书的美观和条码的安全性,通常将条码贴在图书内部,扫描时还需打开图书。为解决这一问题,技术人员提出自动化图书馆的想法,少数图书馆采用了智能书架,需要对图书馆进行整套的改造,代价高昂、流程繁琐。因此一些图书馆已经采用了更加智能化的盘点方式,将需要视线距离扫描的条码替换成RFID芯片,通过部署在可移动平台上的RFID阅读器和天线自动盘点图书,这样的扫描过程不需要人工干预,大大提升了盘点效率。
[0003]计算机视觉是一种代替人眼进行目标识别和理解的技术,通过机器视觉产品如相机将被摄取的图像转换为图像信号,视本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于计算机视觉的图书盘点方法,其特征在于,其包括以下步骤:步骤S1、通过相机录像,并获取单层书架的视频,并对所述视频逐帧拆分,获得图片序列;步骤S2、对图片序列进行光流预估,得到光流数据,进一步得到相邻两帧间每个像素的移动方向和距离;步骤S3、构建并训练旋转实例目标检测模型,对所述图片序列进行实例目标检测,并进一步进行实例分割,获得出现的书脊和索书号在当前图片的位置,并根据坐标将索书号分配给相应的图书;步骤S4、训练文本识别模型,对所述图片序列中识别出的图书书脊和索书号区域的图像进行文本识别,得到每张图片中包含的图书书名和索书号文本及文本所在的位置;步骤S5、基于图片序列中识别的图书和索书号位置坐标和对应的文本,根据光流数据得到两两图片中包含的图书实例之间的对应关系,并进行目标跟踪,追踪同一图书或索书号实例在所有图片中的出现,从而得到每个图书在单层书架的具体位置,和同一图书在不同图片中的所有识别结果;步骤S6、对于每一图书或索书号实例的所有识别文本,基于图书数据库候选集进行修正和匹配,得到真实书名结果,并输出图书实例位置和匹配的图书信息作为盘点结果。2.根据权利要求1所述的一种基于计算机视觉的图书盘点方法,其特征在于,所述步骤S2中,对图片序列进行光流预估的方法包括:步骤S21、构建基于PWC

Net实现的光流预估模型,其核心是使用多尺度网络预测光流,从低分辨率图片开始计算光流,逐级向更高分辨率的网络输入低分辨率的光流数据,计算出新的高分辨率光流,最后得到原图尺寸的光流数据;步骤S22、预先拍摄若干书架真实图书的视频,在所拍摄视频上采用自监督方式训练光流预估模型,让模型自己学习前一图片的像素点该如何移动到后一图片的像素点;步骤S23、从图片序列第一张图片开始,顺序计算相邻两张图片之间的光流数据;将预估得到的光流数据按照原图尺寸与模型输入尺寸的比例进行相应的缩放。3.根据权利要求1所述的一种基于计算机视觉的图书盘点方法,其特征在于,所述步骤S3中,构建并训练旋转实例目标检测模型的方法包括:步骤S301、基于真实拍摄的书架图片,合成实例分割数据集;步骤S302、利用真实图片和合成数据集训练基于旋转候选框的目标检测模型Mask

RCNN,得到鲁棒、泛化性强的模型:步骤S303、第一阶段,基于合成数据集训练,得到适用于多场景、泛化性强的充分训练的一阶段模型;步骤S304、第二阶段,基于真实图片微调训练,使一阶段模型能够更好地适应真实的场景,修正由于合成数据集中噪声带来的训练数据分布不一致问题,得到贴合真实预测场景的高精度的目标检测模型。4.根据权利要求1所述的一种基于计算机视觉的图书盘点方法,其特征在于,所述步骤S3中,对所述图片序列进行实例分割的方法包括:步骤S311、将图片序列中每一张图片送入目标检测模型,得到所有出现的书脊实例和索书号实例的包围框;具体来说,模型输出的是一个旋转包围框,除了包含原始长方形的坐
标,还有其旋转角度;步骤S312、根据得到的长方形框的位置坐标和倾斜角度,计算得到旋转包围框的四角坐标,其包围的图像区域即为真正识别的书脊或索书号实例;步骤S313、过滤面积太小的书脊和索书号实例包围框结果,判断包围框的四个角坐标是否都在图片的边界内,若有超出范围的角点,剔除对应实例识别结果;步骤S314、对于书脊实例包围框,将其分成左右两条线和上下两条线两组线对,仅取其左右线对,并将左右分别延长至图片的上下边缘,得到四个相交点组成的多边形作为新的实例包围框,相当于完成了图书的左右两边分割;步骤S315、对于索书号实例包围框不需要进行上述操作,直接取原始包围框范围作为分割结果;步骤S316、对于书脊和索书号实例分割框,分别作用非极大值抑制,仅保留置信度高且与其他实例重叠较少的实例作为最终的分割结果。5.根据权利要求1所述的一种基于计算机视觉的图书盘点方法,其特征在于,所述步骤S4中,训练文本识别模型并进文本识别的...

【专利技术属性】
技术研发人员:陈力军刘佳顾桥磊徐毅晖陈星宇鄢伟
申请(专利权)人:江苏图客机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1