基于计算机视觉的图书图像检索方法技术

技术编号:32133620 阅读:14 留言:0更新日期:2022-01-29 19:38
本发明专利技术涉及计算机视觉技术领域,具体涉及基于计算机视觉的图书图像检索方法。方法包括:根据待检索图书封面的RGB图像得到语义向量,根据语义向量得到待检索图书的类别;根据待检索图书封面的灰度图,得到文字梯度幅值图和文字梯度方向量化图;将待检索图书封面的RGB图像、文字梯度幅值图和文字梯度方向量化图输入到待检索图书所属类别的度量学习网络中,得到待检索图书封面的嵌入向量;根据待检索图书封面的嵌入向量,得到待检索图书封面的低维投影点,将待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配,得到待检索图书的检索结果。本发明专利技术解决了遇到生僻字或看不懂的书名无法检索图书信息的问题,适用范围更广。适用范围更广。适用范围更广。

【技术实现步骤摘要】
基于计算机视觉的图书图像检索方法


[0001]本专利技术涉及计算机视觉
,具体涉及基于计算机视觉的图书图像检索方法。

技术介绍

[0002]随着数字化技术的发展和互联网技术的不断进步,各行业都向着数字化的方向不断进步。在互联网技术的推动下,各大图书馆也都推出了数字化的图书管理系统。然而,由于图书种类繁杂,信息更新速度较快,读者如何从这些海量的信息中检索出所需要的信息已成为一个重要的研究课题。此外,读者对图书检索的要求也在提高,除了图书的一些基本信息,还需要了解图书的相关资源,并且希望能够及时、快速地得到反馈。
[0003]图书检索是为了获取尽可能准确的图书信息,现有方法是输入待检索图书的书名,得到该图书在图书数据库中的所有信息,该方法在有些情况下是不适用的。当遇到生僻字或看不懂的书名,就无法采用这种方法获取图书的信息。

技术实现思路

[0004]为了解决现有图书检索方法存在适用范围不广的问题,本专利技术的目的在于提供一种基于计算机视觉的图书图像检索方法,所采用的技术方案具体如下:
[0005]本专利技术提供了一种基于计算机视觉的图书图像检索方法,该方法包括以下步骤:
[0006]获取待检索图书封面的RGB图像,根据待检索图书封面的RGB图像,得到待检索图书封面对应的语义向量,根据所述待检索图书封面对应的语义向量,得到待检索图书的类别;
[0007]根据待检索图书封面的灰度图,得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图;
[0008]将待检索图书封面的RGB图像、待检索图书封面的文字梯度幅值图和待检索图书封面对的文字梯度方向量化图输入到待检索图书所属类别的度量学习网络中,得到待检索图书封面对应的嵌入向量;
[0009]根据所述待检索图书封面对应的嵌入向量,得到待检索图书封面的低维投影点,将所述待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配,得到待检索图书的检索结果。
[0010]优选的,所述根据待检索图书封面的灰度图,得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图,包括:
[0011]获取待检索图书封面的灰度图中各像素点在x方向上的卷积和在y方向上的卷积,根据所述待检索图书封面的灰度图中各像素点在x方向上的卷积和在y方向上的卷积,计算待检索图书封面各像素点的梯度幅值和梯度方向;
[0012]根据待检索图书封面各像素点的梯度幅值,得到待检索图书封面的梯度幅值图;根据待检索图书封面各像素点的梯度方向,得到待检索图书封面的梯度方向量化图;
[0013]获取待检索图书封面的文本位置图,根据所述待检索图书封面的文本位置图、待检索图书封面的梯度幅值图和待检索图书封面的梯度方向量化图,得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图。
[0014]优选的,所述获取待检索图书封面的文本位置图,包括:
[0015]对待检索图书封面的灰度图进行归一化处理,将归一化处理后的待检索图书封面的灰度图输入到语义提取网络中,得到待检索图书封面的文本位置概率图;
[0016]对待检索图书封面的文本位置概率图进行argmax操作,得到待检索图书封面的文本位置图。
[0017]优选的,度量学习网络的训练过程,包括:
[0018]将同类别图书封面的RGB图像输入到第一Swin Transfomer中,得到第一特征向量;
[0019]将同类别图书封面对应的文字梯度幅值图和同类别图书封面对应的文字梯度方向量化图输入到第二Swin Transfomer中,得到第二特征向量;
[0020]将第一特征向量与第二特征向量进行联合处理,得到第三特征向量;
[0021]利用神经网络对第三特征向量进行特征拟合、分类,把神经网络的最后一层分类层去掉,将神经网络最后一个隐藏层的输出数据特征作为度量学习网络的输出。
[0022]优选的,所述根据待检索图书封面的RGB图像,得到待检索图书封面对应的语义向量,根据所述待检索图书封面对应的语义向量,得到待检索图书的类别,包括:
[0023]对待检索图书图像的RGB图像进行OCR识别,得到预设个数的词语或句子;
[0024]将所述预设个数的词语或句子拼接起来,得到待检索图书封面对应的语义向量;
[0025]将待检索图书封面对应的语义向量输入全连接网络,得到待检索图书的类别。
[0026]优选的,所述根据所述待检索图书封面对应的嵌入向量,得到待检索图书封面的低维投影点,包括:
[0027]对待检索图书封面对应的嵌入向量进行归一化处理;
[0028]对归一化处理后的待检索图书封面对应的嵌入向量进行降维处理,得到待检索图书封面对应的低维向量;
[0029]根据待检索图书封面对应的低维向量,得到待检索图书封面的低维投影点。
[0030]优选的,所述将所述待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配,得到待检索图书的检索结果,包括:
[0031]获取待检索图书所属类别数据库中图书封面对应的嵌入向量,对所述待检索图书所属类别数据库中图书封面对应的嵌入向量进行降维,得到待检索图书所属类别数据库中图书封面的低维向量;根据所述待检索图书所属类别数据库中图书封面的低维向量,得到待检索图书所属类别数据库中图书封面的低维投影点;
[0032]获取待检索图书封面的低维投影点与其所属类别数据库中图书封面的最近邻的设定个数的低维投影点,将最近邻的设定个数的低维投影点对应的图书信息返回给用户,得到待检索图书的检索结果。
[0033]本专利技术具有如下有益效果:本专利技术根据待检索图书封面的RGB图像,得到待检索图书封面对应的语义向量,根据待检索图书封面对应的语义向量,得到待检索图书的类别;根据待检索图书封面的灰度图,得到待检索图书封面的文字梯度幅值图和文字梯度方向量化
图;度量学习可以扩大类间的差异,缩小类内的差异,本专利技术将待检索图书封面的RGB图像、待检索图书封面对应的文字梯度幅值图和待检索图书封面对应的文字梯度方向量化图输入到待检索图书所属类别的度量学习网络中,得到待检索图书封面对应的嵌入向量;本专利技术根据待检索图书封面对应的嵌入向量,得到待检索图书封面的低维投影点,将待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配,得到待检索图书的检索结果。本专利技术利用图书封面的信息得到图书封面的嵌入向量,通过嵌入向量投影低维空间,将待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配,实现图书的检索,解决了遇到生僻字或看不懂的书名无法检索图书信息的问题,同时缩短了不知名图书的检索时间。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于计算机视觉的图书图像检索方法,其特征在于,该方法包括以下步骤:获取待检索图书封面的RGB图像,根据待检索图书封面的RGB图像,得到待检索图书封面对应的语义向量,根据所述待检索图书封面对应的语义向量,得到待检索图书的类别;根据待检索图书封面的灰度图,得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图;将待检索图书封面的RGB图像、待检索图书封面的文字梯度幅值图和待检索图书封面对的文字梯度方向量化图输入到待检索图书所属类别的度量学习网络中,得到待检索图书封面对应的嵌入向量;根据所述待检索图书封面对应的嵌入向量,得到待检索图书封面的低维投影点,将所述待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配,得到待检索图书的检索结果。2.根据权利要求1所述的一种基于计算机视觉的图书图像检索方法,其特征在于,所述根据待检索图书封面的灰度图,得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图,包括:获取待检索图书封面的灰度图中各像素点在x方向上的卷积和在y方向上的卷积,根据所述待检索图书封面的灰度图中各像素点在x方向上的卷积和在y方向上的卷积,计算待检索图书封面各像素点的梯度幅值和梯度方向;根据待检索图书封面各像素点的梯度幅值,得到待检索图书封面的梯度幅值图;根据待检索图书封面各像素点的梯度方向,得到待检索图书封面的梯度方向量化图;获取待检索图书封面的文本位置图,根据所述待检索图书封面的文本位置图、待检索图书封面的梯度幅值图和待检索图书封面的梯度方向量化图,得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图。3.根据权利要求2所述的一种基于计算机视觉的图书图像检索方法,其特征在于,所述获取待检索图书封面的文本位置图,包括:对待检索图书封面的灰度图进行归一化处理,将归一化处理后的待检索图书封面的灰度图输入到语义提取网络中,得到待检索图书封面的文本位置概率图;对待检索图书封面的文本位置概率图进行argmax操作,得到待检索图书封面的文本位置图。4.根据权利要求1所述的一种基于计算机视觉的图书图像检索方法,其特征在于,度量学习网络的训练过程,包括:将同类别图书封面的RGB图像输入到...

【专利技术属性】
技术研发人员:王爱玲花开瑞刘岩兰晓霞董敏红
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1