基于书脊视觉信息的图书识别方法及系统技术方案

技术编号:27834248 阅读:45 留言:0更新日期:2021-03-30 11:52
本发明专利技术提出一种基于书脊视觉信息的图书识别方法及系统,包括采集图书馆架上图书书脊图片、对其人工标注以构建书脊分割与书脊分类数据集;构建用于书脊图片深度特征提取的卷积神经网络,并利用训练数据进行训练得到特征提取模型;拍摄架上书本的书脊一侧图片,首先对其中的书脊进行实例分割,进而利用已经训练好的模型获取该书脊图片对应的视觉特征向量,然后与馆藏数据库匹配以识别该书脊对应图书的类别。本发明专利技术基于深度学习算法对图书的书脊图片进行识别,利用到书脊目标的全部视觉信息,不受限于文字识别方法所依赖的字典集,支持馆藏新增图书,具有更高的准确率和更好的鲁棒性、可扩展性;可对架上系列图书的书脊图片进行批量识别。行批量识别。行批量识别。

【技术实现步骤摘要】
基于书脊视觉信息的图书识别方法及系统


[0001]本专利技术涉及图书信息管理领域,并特别涉及一种基于书脊视觉信息的图书识别方法及系统。

技术介绍

[0002]目前对图书信息管理还停留在人工基于人眼的识别,人工整理图书信息,或者基于射频识别技术,定制电子标签(RFID)和非接触式信号接受器整理图书信息,或基于文字识别技术,图片采集设备和光学字符识别算法、基于深度学习的字符识别算法,整理图书信息。
[0003]其中基于人眼的识别,即人工对架上图书进行取放和辨别分类。基于射频识别技术:为每一本图书安装电子标签(RFID),录入图书信息,在需要识别时使用非接触式设备对图书信息进行采集。基于文字识别技术:包括基于光学字符识别(OCR)的方法和基于深度学习(Deep Learning)字符识别的方法。主要对图书的封面、书脊或者索书号标签的内容进行字符识别,用识别结果在馆藏数据库中做文本检索。例如图书分拣系统以及收书台(CN201610632579.2)、图书馆取书机器人(CN104552230A)和出版物数字资源的自动采集方法及系统(CN104424271B),虽然是基于光学字符识别,但其均不涉及对书脊的识别,其只能通过对图书的封面或者书中内容进行识别,进而对图书进行分类。而在实际使用中图书往往是密集摆放于书架,暴露在外的只有书脊,现有技术难以对包含多个书脊的图片进行图书类别识别。
[0004]目前技术还存在以下技术缺陷,例如基于人眼的识别会消耗巨大的时间和人力成本,极大限制了工作效率的提升。基于射频识别技术需要繁重的前期建设工作,依赖专有设备和系统,成本昂贵。基于文字识别技术对书本的厚度、磨损程度和艺术字的多样性敏感,稳定性差;本质上是对字符的分类,严重依赖于字典集的范围,即无法识别字典集中没有的陌生语言和字体,不具有可扩展性。

技术实现思路

[0005]本专利技术提出了一种低成本、速度快、高精度、自动化的书脊识别方法,解决了图书馆架上和类似场景的图书识别问题。
[0006]针对现有技术的不足,本专利技术提出一种基于书脊视觉信息的图书识别方法,其中包括:
[0007]步骤1、获取已标注书脊分割的图书书脊图片作为训练集,通过该训练集训练用于分割书脊的深度卷积神经网络模型,得到书脊分割模型,使用该书脊分割模型,对采集的架上书本图片做实例分割,得到多张书脊图片;
[0008]步骤2、通过为每张书脊图片标注图书类别,构建书脊分类数据集,通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型,得到书脊特征提取模型,使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征,集合书脊视觉特征构建书脊
视觉数据库;
[0009]步骤3、将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割,并将分割结果输入至该书脊特征提取模型,得到该待识别书脊图片中各书脊的视觉特征向量,将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。
[0010]所述的基于书脊视觉信息的图书识别方法,其中该步骤1包括数据集构建步骤,使用图片采集设备对架上图书进行多角度拍摄,并在拍摄结果中每个书脊区域确定四个坐标点(x
N
,y
N
)
i
,N∈[1,4]构成一个封闭的四边形b
i
将其框选,以标注书脊分割。
[0011]所述的基于书脊视觉信息的图书识别方法,其中该步骤2包括图书类别标注步骤,获得图书书脊图片中所有的书脊区域B
i
,获取书脊区域B
i
的最小外接矩形R
i
的四个顶点(X
N
,Y
N
)
i
,N∈[1,4]以及R
i
长边的倾斜角度θ
i
,将原图进行仿射变换旋转θ
i
后再根据(X
N
,Y
N
)
i
,N∈[1,4]裁切得到规整的书脊图片BE
i
,人工对书脊图片BE
i
标注类别标签,其中同一本书的书脊图片拥有相同的标签。
[0012]所述的基于书脊视觉信息的图书识别方法,其中该步骤2中用于书脊分类的深度卷积神经网络模型的构建方法包括:使用残差模块构建多层的深度卷积神经网络作为特征提取网络m2,特征提取网络m2末端添加一个使用加性角度间隔损失函数的全连接分类层classifier,得到该用于书脊分类的深度卷积神经网络模型的结构;
[0013]该步骤2包括使用该书脊分类数据集,按照分类任务的范式训练模型M2=m2+classifier:输入缩放为固定大小的书脊图片,训练输出书脊图片所属标签,M2训练完成以后将模型中特征提取网络m2输出的特征图F
i
作为书脊的视觉特征向量。
[0014]所述的基于书脊视觉信息的图书识别方法,其中该步骤3包括将该待识别书脊图片送入该书脊分割模型中处理,得到该待识别书脊图片中所有图书的书脊图片BE
i
;在识别过程中,使用余弦相似度度量两个书脊视觉表征向量F
a
=[a1,a2,

,a
512
]与F
b
=[b1,b2,

,b
512
]之间的相似程度;书脊特征提取模型m2计算每一个书脊图片BE
i
的视觉表征F
i
,将其与脊视觉数据库中的数据做最近邻搜索,得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息,其中相似度最高的类别id信息作为最终识别结果。
[0015]本专利技术还提出了一种基于书脊视觉信息的图书识别系统,其中包括:
[0016]第一训练模块,用于获取已标注书脊分割的图书书脊图片作为训练集,通过该训练集训练用于分割书脊的深度卷积神经网络模型,得到书脊分割模型,使用该书脊分割模型,对采集的架上书本图片做实例分割,得到多张书脊图片;
[0017]第二训练模块,用于为每张书脊图片标注图书类别,构建书脊分类数据集,通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型,得到书脊特征提取模型,使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征,集合书脊视觉特征构建书脊视觉数据库;
[0018]识别模块,用于将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割,并将分割结果输入至该书脊特征提取模型,得到该待识别书脊图片中各书脊的视觉特征向量,将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。
[0019]所述的基于书脊视觉信息的图书识别系统,其中该第一训练模块包括:使用图片采集设备对架上图书进行多角度拍摄,并在拍摄结果中每个书脊区域确定四个坐标点(x
N

y
N
)
i
,N∈[1,4]构成一个封闭的四边形b...

【技术保护点】

【技术特征摘要】
1.一种基于书脊视觉信息的图书识别方法,其特征在于,包括:步骤1、获取已标注书脊分割的图书书脊图片作为训练集,通过该训练集训练用于分割书脊的深度卷积神经网络模型,得到书脊分割模型,使用该书脊分割模型,对采集的架上书本图片做实例分割,得到多张书脊图片;步骤2、通过为每张书脊图片标注图书类别,构建书脊分类数据集,通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型,得到书脊特征提取模型,使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征,集合书脊视觉特征构建书脊视觉数据库;步骤3、将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割,并将分割结果输入至该书脊特征提取模型,得到该待识别书脊图片中各书脊的视觉特征向量,将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。2.如权利要求1所述的基于书脊视觉信息的图书识别方法,其特征在于,该步骤1包括数据集构建步骤,使用图片采集设备对架上图书进行多角度拍摄,并在拍摄结果中每个书脊区域确定四个坐标点(x
N
,y
N
)
i
,N∈[1,4]构成一个封闭的四边形b
i
将其框选,以标注书脊分割。3.如权利要求1所述的基于书脊视觉信息的图书识别方法,其特征在于,该步骤2包括图书类别标注步骤,获得图书书脊图片中所有的书脊区域B
i
,获取书脊区域B
i
的最小外接矩形R
i
的四个顶点(X
N
,Y
N
)
i
,N∈[1,4]以及R
i
长边的倾斜角度θ
i
,将原图进行仿射变换旋转θ
i
后再根据(X
N
,Y
N
)
i
,N∈[1,4]裁切得到规整的书脊图片BE
i
,人工对书脊图片BE
i
标注类别标签,其中同一本书的书脊图片拥有相同的标签。4.如权利要求1所述的基于书脊视觉信息的图书识别方法,其特征在于,该步骤2中用于书脊分类的深度卷积神经网络模型的构建方法包括:使用残差模块构建多层的深度卷积神经网络作为特征提取网络m2,特征提取网络m2末端添加一个使用加性角度间隔损失函数的全连接分类层classifier,得到该用于书脊分类的深度卷积神经网络模型的结构;该步骤2包括使用该书脊分类数据集,按照分类任务的范式训练模型M2=m2+classifier:输入缩放为固定大小的书脊图片,训练输出书脊图片所属标签,M2训练完成以后将模型中特征提取网络m2输出的特征图F
i
作为书脊的视觉特征向量。5.如权利要求4所述的基于书脊视觉信息的图书识别方法,其特征在于,该步骤3包括将该待识别书脊图片送入该书脊分割模型中处理,得到该待识别书脊图片中所有图书的书脊图片BE
i
;在识别过程中,使用余弦相似度度量两个书脊视觉表征向量F
a
=[a1,a2,

,a
512
]与F
b
=[b1,b2,

,b
512
]之间的相似程度;书脊特征提取模型m2计算每一个书脊图片BE
i
的视觉表征F
i
,将其与脊视觉数据库中的数据做最近邻搜索,得到脊视觉数据库...

【专利技术属性】
技术研发人员:孙坦周硕柴秀娟张文蓉鲜国建
申请(专利权)人:中国农业科学院农业信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1