The invention provides a cross-media retrieval method based on subspace learning and semi-supervised regularization, which is characterized by the following steps: step 1, establishing a multimedia database to collect multimedia raw data; extracting features of multimedia data; preserving feature vectors and original data of multimedia data; step 2, obtaining The projection matrix of different media types is defined to optimize the objective function; the iterative method is used to solve the optimization objective function; the feature vector of multimedia data is projected into the common space; step 3, cross-media retrieval is carried out to extract the characteristics of the media data submitted by users; and the feature vector of the media data is projected into the common space. In the middle, the similarity between the projected vector and other vectors in the common space is calculated, and the media data corresponding to the first k feature vectors with the greatest similarity is returned. The cross media retrieval method provided by the invention achieves more accurate retrieval results.
【技术实现步骤摘要】
一种基于子空间学习与半监督正则化的跨媒体检索方法
本专利技术涉及一种基于子空间学习与半监督正则化的跨媒体检索方法,属于数据检索领域。
技术介绍
随着多媒体技术和网络技术的高速发展,文本,图像,音频,视频和3D等非结构化异构多媒体内容迅速涌入互联网,使得跨媒体检索变得尤其重要。跨媒体检索指的是不同媒体数据之间的相互检索,这使得检索具有丰富性和多彩性,更好地满足用户希望提交任意一种媒体数据来检索出具有相同语义的各种类型(相同类型或不同类型)媒体数据的需求。目前,越来越多的国内外学者致力于研究跨媒体检索,所提出的方法大致可归纳为以下几类:深度学习、概率模型、度量学习方法、子空间学习方法等。然而在跨媒体检索中运用子空间学习方法主要是为不同模态学习一个共同的空间,它的做法是将不同模态空间的特征投影到多模态共同空间,并获得跨媒体相似性度量的共同表征。这种方法的优势在于简单明了,适用于任何多种媒体数据之间的检索。缺点是:现有跨媒体检索方法中大多局限于两种媒体之间的检索,以及存在着构造近邻图的过程中计算权值矩阵过于繁琐的问题。这些传统的检索方法只集中在相同媒体或两种媒体数据之间的检索,这忽视了多种媒体数据之间存在着语义一致性和互补关系。因此设计一种跨媒体检索方法满足两种或两种以上的媒体数据之间相互检索变得更有意义。
技术实现思路
本专利技术的目的在于提供一种基于子空间学习与半监督正则化的跨媒体检索方法,以解决上述问题。本专利技术采用了如下技术方案:一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:步骤一,建立多媒体数据库,收集多媒体原始数据;提取多媒体数 ...
【技术保护点】
1.一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:步骤一,建立多媒体数据库,收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;步骤二,获得不同媒体类型的投影矩阵,定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;步骤三,进行跨媒体检索,提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。
【技术特征摘要】
1.一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:步骤一,建立多媒体数据库,收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;步骤二,获得不同媒体类型的投影矩阵,定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;步骤三,进行跨媒体检索,提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。2.如权利要求1所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:其中,步骤二中,定义最优化目标函数的方法如下:最优化目标函数包括四个组成部分,最优化目标函数的第一个组成部分:其中,表示第i种媒体的有标签数据的特征向量构成的矩阵,其中是第i种媒体的第p个样本数据的特征向量,n(i)是第i种媒体有标签数据的数量,d(i)是第i种媒体的每个样本数据对应的特征向量的维度;是第i种媒体类型的投影矩阵;表示第i种媒体有标签数据对应的标签向量构成的矩阵,c为多媒体数据库中语义类别的数量,是第i种媒体的第p个样本数据所对应的标签向量,s是多媒体数据库中媒体类型的数量,α是一个正的常量参数,||Z||F是矩阵Z的Frobenius范数,最优化目标函数的第二个组成部分,该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成,该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成,第二个组成部分定义如下:其中和是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵,和是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵,ε和μ为两个正的常量参数,用来平衡式(2),如果将式(2)最小化,则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离,最优化目标函数的第三个组成部分,在给出第三个组成部分之前,先构建跨媒体近邻图,对于每种媒体,分别构建它们的近邻图,并且构建近邻图的方式是一样的,对于每种媒体,用G(i)=(V(i),E(i))表示第i种媒体的近邻图,V(i)表示第i种媒体近邻图中的顶点,这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成,并且一个投影向量表示一个顶点,每种媒体数据投影向量的维度是相同的,E(i)表示这些顶点的边,计算跨媒体近邻图G(i)=(V(i),E(i))对应的权重矩阵其中中的i表示第i种媒体,p表示权重矩阵W(i)的第p行,q表示权重矩阵W(i)的第q列,表示第i种媒体对应的权重矩阵W(i)的第p行、第q列上的元素值,的定义如下:其中表示第i种媒体的第q个样本数据的特征向量的投影向量,表示的k近邻,接着给出最优化目标函数的第三个组成部分,该项考虑了在多媒体数据库中有标签和无标签媒体数据投影点的近邻关系,定义如下:其中,a(i)=n(i)+m(i)为多媒体数据库中第i种媒体有标签和无标签数据的数量,是一个图的归一化拉普拉斯矩阵,I是一个单位矩阵,D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,为D(i)对角线上的第p个元素值,是由第i种媒体有标签和无标签数据投影后的向量组成,是由第i种媒体的有标签数据和无标签数据的特征向量组成,tr(Z)表示矩阵Z的迹,λ是一个正的常量参数,最优化目标函数的第四个组成部分,该项为避免过拟合的正...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。