一种基于图像处理的图书检索方法技术

技术编号:20916600 阅读:19 留言:0更新日期:2019-04-20 09:42
本发明专利技术涉及一种基于图像处理的图书检索方法。包括以下几个步骤:1、对图书图像进行随机分类,分成待查询数据和要训练数据;2、用图像采集器采集图书页面图像并发送至图像预处理器;3、图像预处理器对图像进行灰度处理、去噪;4、构建去池化的深度卷积神经网络AlexNet模型,将每幅图像送入到该SPPC模型中进行特征提取,构建图像数据库;5、对待查询数据和图像数据库中的特征进行SimHash索引匹配,输出最相似性的检索结果。本发明专利技术采用的特征提取方法降低了对图片的要求,增加了特征提取精度,采用的相似性度量方法提升了索引速度,取得良好的图书检索效果。

A Book Retrieval Method Based on Image Processing

The invention relates to a book retrieval method based on image processing. It includes the following steps: 1. Random classification of book images, which is divided into data to be queried and data to be trained; 2. Collecting book page images with image collector and sending them to image preprocessor; 3. Gray processing and denoising of images by image preprocessor; 4. Establishing a depolarized convolution neural network AlexNet model to send each image to the SPPC model. Fifth, SimHash index matching is applied to the query data and the features in the image database to output the most similar retrieval results. The feature extraction method adopted by the invention reduces the requirement for pictures, increases the accuracy of feature extraction, improves the index speed by adopting the similarity measurement method, and achieves good book retrieval effect.

【技术实现步骤摘要】
一种基于图像处理的图书检索方法
本专利技术属于图像检索领域,具体为一种基于图像处理的图书检索方法。
技术介绍
在大数据的当下时代,关于各大图书馆借阅图书时如何高效的、人性化的查找图书成为当下研究热点之一。对于图像检索主要含有两大步骤:图像特征提取和图像的相似性度量。特征提取就是图像信息的提取,对图像上的点分析和变换,以表示图像的特征的过程及方法。目前,特征提取方法有基于文本和基于内容的,基于文本的特征提取需要人们手动标注图像的关键字,这种方法耗时长且具有主观色彩,不适用于高效检索图书要求。相似性度量是指两个图像之间的相似程度的一种度量,两图像越相似,它们的相似性度量也越大。传统的计算特征向量距离的方式和Hash索引算法难于查询大数据问题,效率低。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供了一种基于图像处理的图书检索方法。本专利技术所采用的技术方案是:一种基于图像处理的图书检索方法,包括以下步骤:1、对图书图像进行随机分类,分成待查询数据和要训练数据;2、用图像采集器采集图书页面图像并发送至图像预处理器;3、图像预处理器对图像进行灰度处理、去噪;4、构建去池化的深度卷积神经网络AlexNet模型,将每幅图像送入到该SPPC模型中进行特征提取,构建图像数据库;5、对待查询数据和图像数据库中的特征进行SimHash索引匹配,输出最相似性的检索结果。优选的,所述步骤4中图像特征提取方法如下:a、将待查询的图书图像导入SPPC模型中进行选择性搜索,划分为2000个候选窗口;b、将待查询的图书图像输入SPPC模型,在卷积层进行一次性特征提取,得到全局特征图;c、在全局特征图中找到各个候选窗口,其步骤是建立二维坐标系,用(a,b)表示全局特征图上的点,(x,y)表示候选窗口长得点,设S为CNN中的所有步长的乘积,对坐标变换有:d、对各个候选窗口采用金字塔池化,提取固定长度的特征向量,其步骤是对一张原图按照三种不同大小的刻度(4*4,2*2,1*1),提取一个固定大小的21维特征向量;e、将此固定特征向量输入至全连接层输出结果作为查询图书的深度特征。优选的,所述步骤5中图像相似性度量方法如下:a、对每个图书的深度特征向量分配权重wi,通过hash函数计算各个特征向量的hash值,编制成0和1的6位签名;b、在hash值的基础上,给所有特征向量进行加权,即W=Hash*weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘;c、将上述各个特征向量的加权结果累加,变成一个序列串;d、通过SimHash函数对序列串计算SimHash值,如果大于0则置1,否则置0,实现降维;e、计算查询图书图像SimHash值与图像数据库中数据的汉明距离,从而判定相似图书,输出索引结果。与现有技术相比,本专利技术的有益效果是:本专利技术采用的去池化的深度卷积神经网络AlexNet模型提取特征能使得任意大小的特征图转换成固定大小的特征向量;采用SimHash算法进行相似性度量可以快速的处理大数据索引。附图说明图1图书图像检索流程图图2SimHash索引流程图具体实施方式为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。实施例一:请参阅图1,本专利技术提供如下技术方案:一种基于图像处理的图书检索方法,包括以下步骤:1、对图书图像进行随机分类,分成待查询数据和要训练数据;2、用图像采集器采集图书页面图像并发送至图像预处理器;3、图像预处理器对图像进行灰度处理、去噪;4、构建去池化的深度卷积神经网络AlexNet模型,将每幅图像送入到该SPPC模型中进行特征提取,构建图像数据库;5、对待查询数据和图像数据库中的特征进行SimHash索引匹配,输出最相似性的检索结果。本实例中,步骤4中图像特征提取方法如下:a、将待查询的图书图像导入SPPC模型中进行选择性搜索,划分为2000个候选窗口;b、将待查询的图书图像输入SPPC模型,在卷积层进行一次性特征提取,得到全局特征图;c、在全局特征图中找到各个候选窗口,其步骤是建立二维坐标系,用(a,b)表示全局特征图上的点,(x,y)表示候选窗口长得点,设S为中的所有步长的乘积,对坐标变换有:d、对各个候选窗口采用金字塔池化,提取固定长度的特征向量,其步骤是对一张原图按照三种不同大小的刻度(4*4,2*2,1*1),提取一个固定大小的21维特征向量;e、将此固定特征向量输入至全连接层输出结果作为查询图书的深度特征。本专利技术中的图像特征提取方法能使任意大小的特征图转换成固定大小的特征向量,增强图书检索的灵活性。实施例二:本专利技术提供如下技术方案:一种基于图像处理的图书检索方法,包括以下步骤:1、对图书图像进行随机分类,分成待查询数据和要训练数据;2、用图像采集器采集图书页面图像并发送至图像预处理器;3、图像预处理器对图像进行灰度处理、去噪;4、构建去池化的深度卷积神经网络AlexNet模型,将每幅图像送入到该SPPC模型中进行特征提取,构建图像数据库;5、对待查询数据和图像数据库中的特征进行SimHash索引匹配,输出最相似性的检索结果。本专利技术中,步骤4中图像特征提取方法如下:a、将待查询的图书图像导入SPPC模型中进行选择性搜索,划分为2000个候选窗口;b、将待查询的图书图像输入SPPC模型,在卷积层进行一次性特征提取,得到全局特征图;c、在全局特征图中找到各个候选窗口,其步骤是建立二维坐标系,用(a,b)表示全局特征图上的点,(x,y)表示候选窗口长得点,设S为中的所有步长的乘积,对坐标变换有:d、对各个候选窗口采用金字塔池化,提取固定长度的特征向量,其步骤是对一张原图按照三种不同大小的刻度(4*4,2*2,1*1),提取一个固定大小的21维特征向量;e、将此固定特征向量输入至全连接层输出结果作为查询图书的深度特征。本专利技术中的图像特征提取方法能使任意大小的特征图转换成固定大小的特征向量,增强图书检索的灵活性。本实例中,步骤5中图像相似性度量方法如下:a、对每个图书的深度特征向量分配权重wi,通过hash函数计算各个特征向量的hash值,编制成0和1的6位签名;b、在hash值的基础上,给所有特征向量进行加权,即W=Hash*weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘;c、将上述各个特征向量的加权结果累加,变成一个序列串;d、通过SimHash函数对序列串计算SimHash值,如果大于0则置1,否则置0,实现降维;e、计算查询图书图像SimHash值与图像数据库中数据的汉明距离,从而判定相似图书,输出索引结果。本专利技术采用SimHash算法进行相似性度量可以快速的处理大数据索引。综上所述,本专利技术中的图像特征提取方法能使任意大小的特征图转换成固定大小的特征向量,增强图书检索的灵活性,采用SimHash算法进行相似性度量可以快速的处理大数据索引。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...

【技术保护点】
1.一种基于图像处理的图书检索方法,其特征在于:包括以下步骤:1、对图书图像进行随机分类,分成待查询数据和要训练数据;2、用图像采集器采集图书页面图像并发送至图像预处理器;3、图像预处理器对图像进行灰度处理、去噪;4、构建去池化的深度卷积神经网络AlexNet模型,将每幅图像送入到该SPPC模型中进行特征提取,构建图像数据库;5、对待查询数据和图像数据库中的特征进行SimHash索引匹配,输出最相似性的检索结果。

【技术特征摘要】
1.一种基于图像处理的图书检索方法,其特征在于:包括以下步骤:1、对图书图像进行随机分类,分成待查询数据和要训练数据;2、用图像采集器采集图书页面图像并发送至图像预处理器;3、图像预处理器对图像进行灰度处理、去噪;4、构建去池化的深度卷积神经网络AlexNet模型,将每幅图像送入到该SPPC模型中进行特征提取,构建图像数据库;5、对待查询数据和图像数据库中的特征进行SimHash索引匹配,输出最相似性的检索结果。2.根据权利要求书<1>所述的一种基于图像处理的图书检索方法,其特征在于:所述步骤4中图像特征提取方法如下:a、将待查询的图书图像导入SPPC模型中进行选择性搜索,划分为2000个候选窗口;b、将待查询的图书图像输入SPPC模型,在卷积层进行一次性特征提取,得到全局特征图;c、在全局特征图中找到各个候选窗口,其步骤是建立二维坐标系,用(a,b)表示全局特征图上的点,(x,y)表示候选窗口长得点,设S为中的所有步长的乘积,对坐标...

【专利技术属性】
技术研发人员:徐军王继霞
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1