当前位置: 首页 > 专利查询>武汉大学专利>正文

一种面向数字人文的移动视觉检索方法技术

技术编号:19320561 阅读:38 留言:0更新日期:2018-11-03 10:59
本发明专利技术公开一种面向数字人文的移动视觉检索方法,包括:首先构建基于深度哈希的图像语义提取模型;通过预训练对模型各处理层的参数进行初始化;构造适用于数字人文领域的损失函数;采集数字人文图像样本,并构建模型训练数据集和验证集;对图像样本进行预处理;使用构建的损失函数和数字人文训练集对模型进行训练,优化模型参数;使用完成训练的模型提取图像语义特征向量,完成图像检索流程。本发明专利技术针对数字人文移动视觉检索中的图像深度语义特征提取和数据传输规模限制两大挑战,结合深度学习和哈希方法提出基于深度哈希的数字人文移动视觉搜索方法,该方法在数字人文领域数据集上表现优异。

A mobile visual retrieval method for Digital Humanities

The invention discloses a mobile visual retrieval method for digital humanities, which includes: firstly, constructing an image semantic extraction model based on depth hash; initializing the parameters of each processing layer of the model through pre-training; constructing a loss function suitable for digital humanities; collecting Digital Humanities image samples and constructing a model. Type training data set and verification set; image samples are preprocessed; model parameters are optimized by using loss function and digital human training set constructed; image semantic feature vectors are extracted from the training model to complete the image retrieval process. Aiming at the two challenges of image depth semantic feature extraction and data transmission scale limitation in digital human mobile visual retrieval, the present invention proposes a digital human mobile visual search method based on depth hashing combining depth learning and hashing method, which performs well on data sets in the field of digital human.

【技术实现步骤摘要】
一种面向数字人文的移动视觉检索方法
本专利技术涉及数字人文、移动视觉检索等领域,特别涉及一种面向数字人文的移动视觉检索方法。
技术介绍
随着移动智能终端设备的普及、大数据和云计算技术的快速发展,互联网上产生了海量的图片、视频、3D模型等视觉内容;移动设备的便携性和无线网络的泛在化使得信息检索方式趋于移动化、多媒体化,移动视觉搜索(MobileVisualSearch,MVS)技术,即通过移动智能终端采集的图像、视频或地图等视觉数据作为检索对象来获取关联信息的信息检索模式,逐渐发展起来,并且产生了巨大的市场和应用需求。而将MVS应用到数字人文领域是近几年随着图书情报学科在MVS研究的逐渐深入而出现的,目前主要应用在图书馆、档案馆、博物馆等领域,MVS在数字人文领域的应用主要包括提供展品导览、实现精准定位、提升阅读体验等目前有关数字人文移动视觉检索的研究主要围绕以下三个方面展开:①发展方向的探讨:通过调研研究数字人文移动视觉的处理对象、基本框架、应用实践等方面的发展和前景。②基础架构的搭建:通过分析数字人文移动视觉检索的处理对象、应用场景和技术实现方法,构建基本理论框架。③应用试验:通过构建技术框架、采集数据,进行模拟实验验证相关方法的有效性。在上述方法中,大多数并未充分考虑到图像深层语义特征的提取以及数据传输规模限制,数字人文移动视觉检索方法仍然有较大的优化空间。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的不足,综合考虑图像深层语义特征的提取以及数据传输规模限制,运用深度哈希技术提出一种面向数字人文的移动视觉检索方法。本专利技术所采用的技术方案是:一种面向数字人文的移动视觉检索方法,包含以下步骤:步骤1,构建基于深度哈希的图像语义提取模型,该模型总共分为九个处理层:包括五个卷积层、两个全连接层、一个哈希层和一个输出层;步骤2,对模型进行预训练,使用预训练模型参数作为各处理层的初始化参数;步骤3,构造基于深度哈希的图像语义提取模型的损失函数;步骤4,采集图像样本,构建模型训练集和验证集;步骤5,图像预处理,减少图像光照、大小对模型的影响;步骤6,使用步骤3中构建的损失函数和步骤4构建的训练集对模型进行训练,优化模型参数;步骤7,利用步骤6中训练完成的模型提取图像语义特征,使用步骤4中的验证集作为图像检索集,训练集作为目标集,计算图像间的距离,并根据距离大小进行排序,返回图像检索结果。进一步的,所述步骤1中卷积处理层Ci包含卷积、其中,卷积运算通常是指使用卷积核对图像中的每个像素进行乘积求和的运算方式,Wi、bi分别为第i个卷积层的卷积核权重向量和偏置向量;卷积运算结果通过非线性激活函数f(·)得到输出激活值;最后通过池化方法P(·)得到最终的卷积层输出结果;全连接层定义如下:FCi=f(Wi·FCi-1+bi)其中,Wi、bi分别为第i个全连接层的权重向量和偏置向量,f(·)为全连接层的激活函数;哈希层使用基于LSH的哈希方法对特征向量进行处理,并使用激活函数保证哈希层输出在[-1,1]范围内,哈希层定义如下:其中v为输入哈希层的特征向量,a是一个每一维均独立随机取自P稳定分布的d维向量,b为随机取自[0,w]的一个实数,w为量化宽度;f(·)为激活函数;输出层的节点个数是模型需要预测的变量的个数,即数据集类别总数,使用输出激活函数,得到最终的输出激活值,定义如下:Output=f(v)其中v为输入输出层的特征向量。进一步的,所述步骤2中,使用ImageNet数据集对模型进行预训练。进一步的,所述步骤3中,构造基于深度哈希的图像语义提取模型的损失函数,定义如下:L=Lp+Lr+φ(θ)该损失函数包含预测损失项Lp、排序损失项Lr和正则项φ(θ)三个部分;其中,预测损失项Lp计算模型对样本的预测值与真实值之间的误差,定义如下:对于属于类别Ci的样本x,模型输出为f(x)=(x1,...,xc),xi表示该样本属于类别i的得分值,C为类别总数,xCi即表示该样本属于实际类别Ci的概率,xmaxi为模型预测的最大概率值,-log为计算对数损失.排序损失项主要考虑到语义排序问题,将排序因素计入损失项中,排序损失项Lr定义如下:Lr=-log(P(xci>xi))其中,P(xCi>xi)即正样本得分排在负样本前面的概率;Lr排序损失可理解为:对于实际属于Ci类的单个样本x,理想结果是xCi>xi(i,Ci∈c;i≠Ci)且xCi趋近于1、xi趋近于0,此时P(xCi>xi)=1,Lr=0;若正样本预测得分小于负样本,则需要计入排序损失项;正则项的主要作用是提高模型的领域泛化性,定义如下:其中,λ为正则项系数,调节正则项与其他损失项的比重,n为模型训练过程中每批(batch)训练集的样本数,1/2便于梯度计算过程中的求导,w为模型中各节点的连接权重值。进一步,所述步骤4中,采集的图像数据样本为数字人文领域,先对样本进行分类,然后构建模型训练集和验证集,且训练集和验证集相互独立。进一步的,所述步骤5中,采用对比度归一化方法对图像进行预处理,方法如下:其中,图像为标准RGB格式,表示为X∈Rr×c×3,r×c为图像像素大小,数字3即RGB格式的红、绿、蓝三个颜色通道,则Xi,j,k表示第i行第j列第k个颜色通道(1为红色、2为绿色,3为蓝色通道)的像素值;为整个图像的平均值;设置为一个极小值以防止出现分母为0的情况。进一步的,所述步骤6中,采用小批量梯度下降方法对模型训练过程进行优化,模型训练和优化的参数是各处理层的连接权重值和偏置值,通过模型训练使得模型中各个处理层得到最优参数值。进一步的,所述步骤7中使用欧式距离度量图像间的距离。进一步的,还包括步骤8,构建数字人文移动视觉检索流程的指标对步骤7中的检索流程进行评估。进一步的,所述步骤8中,采用P@k、R@k、mAP对步骤7中的数字人文移动视觉检索流程的效率进行评估,P@k指标反映了topk个返回结果中的准确程度,R@k反映了topk个返回结果中的全面性,mAP综合反映系统的平均检索性能,各评估指标定义如下:其中,Nk为前k个检索结果中与搜索图片相关(即与搜索图片类别相同或有相同的语义标签)的图片数,A为图片库中与搜索图片相关的样本总数;其中,P(i)为前i个检索结果中相关样本数ir所占比例;APq反映了单个查询q中返回结果的平均查准率,对于单个查询q,N为图片库中相关图片总数,n为检索返回图片数,P(i)为前i个检索结果的查准率,r(i)表示第i个返回结果是否与查询图片相关(相关则取值为1,否则为0);Q为总查询数。本专利技术的优点和有益效果:(1)提出了一种面向数字人文的移动视觉检索方法,利用深度卷积神经网络逐层迭代和抽象的特点,使模型具备学习人文图像深层语义特征的能力,通过在神经网络结构层中嵌入哈希层的方法将深度学习和哈希算法有机结合,使模型学习到更为紧凑的图像语义特征表示,满足移动视觉搜索研究领域的图像语义特征提取和快速检索要求。(2)提出了适用于移动视觉搜索场景的模型损失函数,考虑到移动视觉搜索的语义排序问题和模型过拟合问题,在softmax分类损失的基础上加入搜索排序损失项和L2正则项,使用该损失函数对基于深度哈希的图像语义特征提取模型进行训练本文档来自技高网...

【技术保护点】
1.一种面向数字人文的移动视觉检索方法,其特征在于,包含以下步骤:步骤1,构建基于深度哈希的图像语义提取模型,该模型总共分为九个处理层:包括五个卷积层、两个全连接层、一个哈希层和一个输出层;步骤2,对模型进行预训练,使用预训练模型参数作为各处理层的初始化参数;步骤3,构造基于深度哈希的图像语义提取模型的损失函数;步骤4,采集图像样本,构建模型训练集和验证集;步骤5,图像预处理,减少图像光照、大小对模型的影响;步骤6,使用步骤3中构建的损失函数和步骤4构建的训练集对模型进行训练,优化模型参数;步骤7,利用步骤6中训练完成的模型提取图像语义特征,使用步骤4中的验证集作为图像检索集,训练集作为目标集,计算图像间的距离,并根据距离大小进行排序,返回图像检索结果。

【技术特征摘要】
1.一种面向数字人文的移动视觉检索方法,其特征在于,包含以下步骤:步骤1,构建基于深度哈希的图像语义提取模型,该模型总共分为九个处理层:包括五个卷积层、两个全连接层、一个哈希层和一个输出层;步骤2,对模型进行预训练,使用预训练模型参数作为各处理层的初始化参数;步骤3,构造基于深度哈希的图像语义提取模型的损失函数;步骤4,采集图像样本,构建模型训练集和验证集;步骤5,图像预处理,减少图像光照、大小对模型的影响;步骤6,使用步骤3中构建的损失函数和步骤4构建的训练集对模型进行训练,优化模型参数;步骤7,利用步骤6中训练完成的模型提取图像语义特征,使用步骤4中的验证集作为图像检索集,训练集作为目标集,计算图像间的距离,并根据距离大小进行排序,返回图像检索结果。2.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤1中卷积处理层Ci包含卷积、其中,卷积运算通常是指使用卷积核对图像中的每个像素进行乘积求和的运算方式,Wi、bi分别为第i个卷积层的卷积核权重向量和偏置向量;卷积运算结果通过非线性激活函数f(·)得到输出激活值;最后通过池化方法P(·)得到最终的卷积层输出结果;全连接层定义如下:FCi=f(Wi·FCi-1+bi)其中,Wi、bi分别为第i个全连接层的权重向量和偏置向量,f(·)为全连接层的激活函数;哈希层使用基于LSH的哈希方法对特征向量进行处理,并使用激活函数保证哈希层输出在[-1,1]范围内,哈希层定义如下:其中v为输入哈希层的特征向量,a是一个每一维均独立随机取自P稳定分布的d维向量,b为随机取自[0,w]的一个实数,w为量化宽度;f(·)为激活函数;输出层的节点个数是模型需要预测的变量的个数,即数据集类别总数,使用输出激活函数,得到最终的输出激活值,定义如下:Output=f(v)其中v为输入输出层的特征向量。3.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤2中,使用ImageNet数据集对模型进行预训练。4.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤3中,构造基于深度哈希的图像语义提取模型的损失函数,定义如下:L=Lp+Lr+φ(θ)该损失函数包含预测损失项Lp、排序损失项Lr和正则项φ(θ)三个部分;其中,预测损失项Lp计算模型对样本的预测值与真实值之间的误差,定义如下:对于属于类别Ci的样本x,模型输出为f(x)=(x1,...,xc),xi表示该样本属于类别i的得分值,C为类别总数,xCi即表示该样本属于实际类别Ci的概率,xmaxi为模型预测的最大概率值,-log为计算对数损失.排序损失项主要考虑到语义排序问题,将排序因素计入损失项中,排序损失项Lr定义如下:Lr=-log(P(...

【专利技术属性】
技术研发人员:曾子明秦思琪
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1