一种面向数字人文的移动视觉检索方法技术

技术编号：19320561 阅读：38 留言：0更新日期：2018-11-03 10:59

本发明专利技术公开一种面向数字人文的移动视觉检索方法，包括：首先构建基于深度哈希的图像语义提取模型；通过预训练对模型各处理层的参数进行初始化；构造适用于数字人文领域的损失函数；采集数字人文图像样本，并构建模型训练数据集和验证集；对图像样本进行预处理；使用构建的损失函数和数字人文训练集对模型进行训练，优化模型参数；使用完成训练的模型提取图像语义特征向量，完成图像检索流程。本发明专利技术针对数字人文移动视觉检索中的图像深度语义特征提取和数据传输规模限制两大挑战，结合深度学习和哈希方法提出基于深度哈希的数字人文移动视觉搜索方法，该方法在数字人文领域数据集上表现优异。

A mobile visual retrieval method for Digital Humanities

The invention discloses a mobile visual retrieval method for digital humanities, which includes: firstly, constructing an image semantic extraction model based on depth hash; initializing the parameters of each processing layer of the model through pre-training; constructing a loss function suitable for digital humanities; collecting Digital Humanities image samples and constructing a model. Type training data set and verification set; image samples are preprocessed; model parameters are optimized by using loss function and digital human training set constructed; image semantic feature vectors are extracted from the training model to complete the image retrieval process. Aiming at the two challenges of image depth semantic feature extraction and data transmission scale limitation in digital human mobile visual retrieval, the present invention proposes a digital human mobile visual search method based on depth hashing combining depth learning and hashing method, which performs well on data sets in the field of digital human.

全部详细技术资料下载

【技术实现步骤摘要】
一种面向数字人文的移动视觉检索方法
本专利技术涉及数字人文、移动视觉检索等领域，特别涉及一种面向数字人文的移动视觉检索方法。
技术介绍
随着移动智能终端设备的普及、大数据和云计算技术的快速发展，互联网上产生了海量的图片、视频、3D模型等视觉内容；移动设备的便携性和无线网络的泛在化使得信息检索方式趋于移动化、多媒体化，移动视觉搜索(MobileVisualSearch，MVS)技术，即通过移动智能终端采集的图像、视频或地图等视觉数据作为检索对象来获取关联信息的信息检索模式，逐渐发展起来，并且产生了巨大的市场和应用需求。而将MVS应用到数字人文领域是近几年随着图书情报学科在MVS研究的逐渐深入而出现的，目前主要应用在图书馆、档案馆、博物馆等领域，MVS在数字人文领域的应用主要包括提供展品导览、实现精准定位、提升阅读体验等目前有关数字人文移动视觉检索的研究主要围绕以下三个方面展开：①发展方向的探讨：通过调研研究数字人文移动视觉的处理对象、基本框架、应用实践等方面的发展和前景。②基础架构的搭建：通过分析数字人文移动视觉检索的处理对象、应用场景和技术实现方法，构建基本理论框架。③应用试验：通过构建技术框架、采集数据，进行模拟实验验证相关方法的有效性。在上述方法中，大多数并未充分考虑到图像深层语义特征的提取以及数据传输规模限制，数字人文移动视觉检索方法仍然有较大的优化空间。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的不足，综合考虑图像深层语义特征的提取以及数据传输规模限制，运用深度哈希技术提出一种面向数字人文的移动视觉检索方法。本专利技术所采用的技术方案...

【技术保护点】
1.一种面向数字人文的移动视觉检索方法，其特征在于，包含以下步骤：步骤1，构建基于深度哈希的图像语义提取模型，该模型总共分为九个处理层：包括五个卷积层、两个全连接层、一个哈希层和一个输出层；步骤2，对模型进行预训练，使用预训练模型参数作为各处理层的初始化参数；步骤3，构造基于深度哈希的图像语义提取模型的损失函数；步骤4，采集图像样本，构建模型训练集和验证集；步骤5，图像预处理，减少图像光照、大小对模型的影响；步骤6，使用步骤3中构建的损失函数和步骤4构建的训练集对模型进行训练，优化模型参数；步骤7，利用步骤6中训练完成的模型提取图像语义特征，使用步骤4中的验证集作为图像检索集，训练集作为目标集，计算图像间的距离，并根据距离大小进行排序，返回图像检索结果。

【技术特征摘要】
1.一种面向数字人文的移动视觉检索方法，其特征在于，包含以下步骤：步骤1，构建基于深度哈希的图像语义提取模型，该模型总共分为九个处理层：包括五个卷积层、两个全连接层、一个哈希层和一个输出层；步骤2，对模型进行预训练，使用预训练模型参数作为各处理层的初始化参数；步骤3，构造基于深度哈希的图像语义提取模型的损失函数；步骤4，采集图像样本，构建模型训练集和验证集；步骤5，图像预处理，减少图像光照、大小对模型的影响；步骤6，使用步骤3中构建的损失函数和步骤4构建的训练集对模型进行训练，优化模型参数；步骤7，利用步骤6中训练完成的模型提取图像语义特征，使用步骤4中的验证集作为图像检索集，训练集作为目标集，计算图像间的距离，并根据距离大小进行排序，返回图像检索结果。2.根据权利要求1所述的一种面向数字人文的移动视觉检索方法，其特征在于：所述步骤1中卷积处理层Ci包含卷积、其中，卷积运算通常是指使用卷积核对图像中的每个像素进行乘积求和的运算方式，Wi、bi分别为第i个卷积层的卷积核权重向量和偏置向量；卷积运算结果通过非线性激活函数f(·)得到输出激活值；最后通过池化方法P(·)得到最终的卷积层输出结果；全连接层定义如下：FCi＝f(Wi·FCi-1+bi)其中，Wi、bi分别为第i个全连接层的权重向量和偏置向量，f(·)为全连接层的激活函数；哈希层使用基于LSH的哈希方法对特征向量进行处理，并使用激活函数保证哈希层输出在[-1,1]范围内，哈希层定义如下：其中v为输入哈希层的特征向量，a是一个每一维均独立随机取自P稳定分布的d维向量，b为随机取自[0,w]的一个实数，w为量化宽度；f(·)为激活函数；输出层的节点个数是模型需要预测的变量的个数，即数据集类别总数，使用输出激活函数，得到最终的输出激活值，定义如下：Output＝f(v)其中v为输入输出层的特征向量。3.根据权利要求1所述的一种面向数字人文的移动视觉检索方法，其特征在于：所述步骤2中，使用ImageNet数据集对模型进行预训练。4.根据权利要求1所述的一种面向数字人文的移动视觉检索方法，其特征在于：所述步骤3中，构造基于深度哈希的图像语义提取模型的损失函数，定义如下：L＝Lp+Lr+φ(θ)该损失函数包含预测损失项Lp、排序损失项Lr和正则项φ(θ)三个部分；其中，预测损失项Lp计算模型对样本的预测值与真实值之间的误差，定义如下：对于属于类别Ci的样本x，模型输出为f(x)＝(x1,...,xc)，xi表示该样本属于类别i的得分值，C为类别总数，xCi即表示该样本属于实际类别Ci的概率，xmaxi为模型预测的最大概率值，-log为计算对数损失.排序损失项主要考虑到语义排序问题，将排序因素计入损失项中，排序损失项Lr定义如下：Lr＝-log(P(...

【专利技术属性】
技术研发人员：曾子明，秦思琪，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人