一种基于深度学习的图书定位和识别方法技术

技术编号:28146110 阅读:14 留言:0更新日期:2021-04-21 19:30
本发明专利技术公开了一种基于深度学习的图书定位和识别方法,一种基于深度学习的图书定位和识别方法,包括以下步骤:步骤1、获取书架图像;步骤2、识别书架图像中每个图书的位置信息;步骤3、提取每个图书的特征信息;根据图书特征信息,搜索出图书特征信息对应的图书信息。本发明专利技术使用图像识别技术实现对图书的盘点。明使用图像识别技术实现对图书的盘点。明使用图像识别技术实现对图书的盘点。

【技术实现步骤摘要】
一种基于深度学习的图书定位和识别方法


[0001]本专利技术属于图像识别
,尤其涉及一种基于深度学习的图书定位和识别方法。

技术介绍

[0002]图书在书架上的定位和检索在图书馆信息管理系统中起着重要的作用。为了能够精确的定位图书的位置和相关信息,方便图书馆的盘点,传统上一般采用RFID标签的方法(如专利208172824U)来对图书进行识别。虽然RFID极大的减少了工作人员盘点的工作量,但是其具有很多缺点,首先在于RFID标签的成本过高,因为每本图书需要配备一个RFID标签,贴标签和输入信息需要花费大量的时间,其次是标签之间容易互相干扰,所以存在定位不准确和识别率不高的问题。为了解决这个问题,有效的降低图书盘点的成本和工作量,本专利技术中引入了深度学习和人工智能的方法,来有效的解决RFID既有的缺陷。

技术实现思路

[0003]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于深度学习的图书定位和识别方法,使用图像识别技术实现对图书的盘点。
[0004]为解决上述技术问题,本专利技术采用的技术方案是:一种基于深度学习的图书定位和识别方法,包括以下步骤:
[0005]步骤1、获取书架图像;
[0006]步骤2、识别书架图像中每个图书的位置信息;
[0007]步骤3、提取每个图书的特征信息;根据图书特征信息,搜索出图书特征信息对应的图书信息。
[0008]进一步地,所述步骤2,包括以下步骤:
[0009]调取预训练好的Mask R

CNN深度学习模型;所述Mask R

CNN深度学习模型为预先经过以下操作后的模型:修改所述Mask R

CNN深度学习模型最后一层的全连接层或1x1的卷积层,使Mask R

CNN深度学习模型的输出为单种物体的坐标和概率;
[0010]使用调取的Mask R

CNN深度学习模型识别书架图像中每个图书书脊的图像的位置信息。
[0011]进一步地,所述预训练好的Mask R

CNN深度学习模型,训练时包括以下步骤:
[0012]调取已经过修改的Mask R

CNN深度学习模型;
[0013]调取合成的训练数据,所述训练数据为书架图像,该书架图像中的每个图书书脊的图像均标记有坐标信息,每个所述书脊的形状对应一个直方图;
[0014]使用所述训练数据对调取的Mask R

CNN深度学习模型进行训练。
[0015]进一步地,所述Mask R

CNN深度学习模型在训练时,当所述Mask R

CNN深度学习模型输出多个候选框时,将多个所述候选框中范围超出任一书脊的形状对应的直方图范围的候选框剔除。
[0016]进一步地,所述步骤3提取每个图书特征信息,包括以下步骤:
[0017]调取ResNet50深度学习模型;
[0018]将图书书脊的图像输入ResNet50深度学习模型,取ResNet50深度学习模型计算得到的全连接层前面最后一层的向量输出,输出的特征向量为图书特征信息。
[0019]进一步地,所述ResNet50深度学习模型的向量输出为经过池化运算后的向量输出。
[0020]进一步地,所述步骤4根据图书特征信息,识别出图书对应的图书信息,包括以下步骤:
[0021]使用Siamese网络在预置数据库中搜索与识别出的图书特征信息相似度大于阈值的特征信息;
[0022]根据预置数据库中搜索出的特征信息,查询对应的图书信息输出。
[0023]本专利技术与现有技术相比具有以下优点:本专利技术通过图像识别技术得到书架上图书的位置信息和图书信息,相比传统对图书贴电子标签的方式,节省了成本,缩短了图书盘点时间,且盘点准确率高,效果稳定。
[0024]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0025]图1为本专利技术的方法流程图。
[0026]图2为Siamese网络的原理图。
具体实施方式
[0027]如图1所示,一种基于深度学习的图书定位和识别方法,包括以下步骤:
[0028]步骤1、获取书架图像;
[0029]所述书架图像为通过对书架直接进行拍照所得。
[0030]步骤2、识别书架图像中每个图书的位置信息;
[0031]具体地,调取目标识别模型对书架图像进行识别,识别出每个图书书脊的图像,以及书脊的图像所在位置。
[0032]步骤3、提取每个图书的特征信息;根据图书特征信息,搜索出图书特征信息对应的图书信息。
[0033]具体地,调取特征提取模型对每个图书书脊的图像进行识别,提取出图书特征信息。将识别的图书特征信息在预置数据库中搜索相似度超过阈值的图书特征进行相似度比较,进一步根据预置数据库中搜索到的图书特征得到对应的图书信息。
[0034]所述目标识别模型为通过以下步骤获得:
[0035]步骤A、调取Mask R

CNN深度学习模型,并修改Mask R

CNN深度学习模型最后一层的全连接层或1x1的卷积层,将损失函数修改为使Mask R

CNN深度学习模型的输出为单种物体的坐标和概率;
[0036]需要说明的是,未修改的Mask R

CNN深度学习模型的最后一层全连接层(或者1x1
的卷积层,这两种实现等价)会输出选框对应不同物体的概率,以及选框为背景的概率,对应的是多分类的问题。而在本专利技术中由于我们只需要专注于单种物体的识别,因此需要的完成问题是单分类的问题,只需要考虑该选框是书脊还是背景,因此最后的问题变成二分类问题,随之修改具体的损失函数为:
[0037]使得网络仅仅输出单种物体的坐标和概率(选框层级上的和像素层级上的),从而加强了图书识别和分割的准确率。
[0038]步骤B、调取合成的训练数据,所述训练数据为书架图像,该书架图像中的每个图书书脊的图像均标记有坐标信息,每个所述书脊的形状对应一个直方图;
[0039]需要说明的是,在训练数据采集方面由于图书的形状在一定范围内变化,而且本专利技术的目标是解决固定场景下(书架上)的图书识别问题,本专利技术采集的数据主要是书脊的图像数据,然后使用书脊的图像数据合成书架的图像数据,使用这些合成的数据来对修改后的Mask R

CNN深度学习模型训练。本专利技术在书脊形状的选择上做了一定的优化,优化的细节如下所述,首先根据书脊的形状(高宽比),按照一定的间距(比如0.01)做出对应的直方图,统计不同高宽比的书本的整个书架图书中的占比,然后按照这个占比的倒数为权重,对书本进行采样。通过这个方法,能够均匀的采样到不同高宽比的书本图像数据,使得训练生成的模型能够更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的图书定位和识别方法,其特征在于:包括以下步骤:步骤1、获取书架图像;步骤2、识别书架图像中每个图书的位置信息;步骤3、提取每个图书的特征信息;根据图书特征信息,搜索出图书特征信息对应的图书信息。2.按照权利要求1所述的一种基于深度学习的图书定位和识别方法,其特征在于:所述步骤2,包括以下步骤:调取预训练好的Mask R

CNN深度学习模型;所述Mask R

CNN深度学习模型为预先经过以下操作后的模型:修改所述Mask R

CNN深度学习模型最后一层的全连接层或1x1的卷积层,使Mask R

CNN深度学习模型的输出为单种物体的坐标和概率;使用调取的Mask R

CNN深度学习模型识别书架图像中每个图书书脊的图像的位置信息。3.按照权利要求2所述的一种基于深度学习的图书定位和识别方法,其特征在于:所述预训练好的Mask R

CNN深度学习模型,训练时包括以下步骤:调取已经过修改的Mask R

CNN深度学习模型;调取合成的训练数据,所述训练数据为书架图像,该书架图像中的每个图书书脊的图像均标记有坐标信息,每个所述书脊的形状对应...

【专利技术属性】
技术研发人员:张校捷
申请(专利权)人:上海书山智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1