一种基于子空间学习与半监督正则化的跨媒体检索方法技术

技术编号:18658178 阅读:23 留言:0更新日期:2018-08-11 14:30
本发明专利技术提供一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:步骤一,建立多媒体数据库,收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;步骤二,获得不同媒体类型的投影矩阵,定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;步骤三,进行跨媒体检索,提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。本发明专利技术所提供的跨媒体检索方法,检索的结果更加准确。

A cross media retrieval method based on subspace learning and semi supervised regularization

The invention provides a cross-media retrieval method based on subspace learning and semi-supervised regularization, which is characterized by the following steps: step 1, establishing a multimedia database to collect multimedia raw data; extracting features of multimedia data; preserving feature vectors and original data of multimedia data; step 2, obtaining The projection matrix of different media types is defined to optimize the objective function; the iterative method is used to solve the optimization objective function; the feature vector of multimedia data is projected into the common space; step 3, cross-media retrieval is carried out to extract the characteristics of the media data submitted by users; and the feature vector of the media data is projected into the common space. In the middle, the similarity between the projected vector and other vectors in the common space is calculated, and the media data corresponding to the first k feature vectors with the greatest similarity is returned. The cross media retrieval method provided by the invention achieves more accurate retrieval results.

【技术实现步骤摘要】
一种基于子空间学习与半监督正则化的跨媒体检索方法
本专利技术涉及一种基于子空间学习与半监督正则化的跨媒体检索方法,属于数据检索领域。
技术介绍
随着多媒体技术和网络技术的高速发展,文本,图像,音频,视频和3D等非结构化异构多媒体内容迅速涌入互联网,使得跨媒体检索变得尤其重要。跨媒体检索指的是不同媒体数据之间的相互检索,这使得检索具有丰富性和多彩性,更好地满足用户希望提交任意一种媒体数据来检索出具有相同语义的各种类型(相同类型或不同类型)媒体数据的需求。目前,越来越多的国内外学者致力于研究跨媒体检索,所提出的方法大致可归纳为以下几类:深度学习、概率模型、度量学习方法、子空间学习方法等。然而在跨媒体检索中运用子空间学习方法主要是为不同模态学习一个共同的空间,它的做法是将不同模态空间的特征投影到多模态共同空间,并获得跨媒体相似性度量的共同表征。这种方法的优势在于简单明了,适用于任何多种媒体数据之间的检索。缺点是:现有跨媒体检索方法中大多局限于两种媒体之间的检索,以及存在着构造近邻图的过程中计算权值矩阵过于繁琐的问题。这些传统的检索方法只集中在相同媒体或两种媒体数据之间的检索,这忽视了多种媒体数据之间存在着语义一致性和互补关系。因此设计一种跨媒体检索方法满足两种或两种以上的媒体数据之间相互检索变得更有意义。
技术实现思路
本专利技术的目的在于提供一种基于子空间学习与半监督正则化的跨媒体检索方法,以解决上述问题。本专利技术采用了如下技术方案:一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:步骤一,建立多媒体数据库,收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;步骤二,获得不同媒体类型的投影矩阵,定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;步骤三,进行跨媒体检索,提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。本专利技术的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:其中,步骤二中,定义最优化目标函数的方法如下:最优化目标函数包括四个组成部分,最优化目标函数的第一个组成部分:其中,表示第i种媒体的有标签数据的特征向量构成的矩阵,其中是第i种媒体的第p个样本数据的特征向量,n(i)是第i种媒体有标签数据的数量,d(i)是第i种媒体的每个样本数据对应的特征向量的维度;是第i种媒体类型的投影矩阵;表示第i种媒体有标签数据对应的标签向量构成的矩阵,c为多媒体数据库中语义类别的数量,是第i种媒体的第p个样本数据所对应的标签向量,s是多媒体数据库中媒体类型的数量,α是一个正的常量参数,||Z||F是矩阵Z的Frobenius范数,最优化目标函数的第二个组成部分,该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成,该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成,第二个组成部分定义如下:其中和是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵,和是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵,ε和μ为两个正的常量参数,用来平衡式(2),如果将式(2)最小化,则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离,最优化目标函数的第三个组成部分,在给出第三个组成部分之前,先构建跨媒体近邻图,对于每种媒体,分别构建它们的近邻图,并且构建近邻图的方式是一样的,对于每种媒体,用G(i)=(V(i),E(i))表示第i种媒体的近邻图,V(i)表示第i种媒体近邻图中的顶点,这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成,并且一个投影向量表示一个顶点,每种媒体数据投影向量的维度是相同的,E(i)表示这些顶点的边,计算跨媒体近邻图G(i)=(V(i),E(i))对应的权重矩阵其中中的i表示第i种媒体,p表示权重矩阵W(i)的第p行,q表示权重矩阵W(i)的第q列,表示第i种媒体对应的权重矩阵W(i)的第p行、第q列上的元素值,的定义如下:其中表示第i种媒体的第q个样本数据的特征向量的投影向量,表示的k近邻,接着给出最优化目标函数的第三个组成部分,该项考虑了在多媒体数据库中有标签和无标签媒体数据投影点的近邻关系,定义如下:其中,a(i)=n(i)+m(i)为多媒体数据库中第i种媒体有标签和无标签数据的数量,是一个图的归一化拉普拉斯矩阵,I是一个单位矩阵,D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,为D(i)对角线上的第p个元素值,是由第i种媒体有标签和无标签数据投影后的向量组成,是由第i种媒体的有标签数据和无标签数据的特征向量组成,tr(Z)表示矩阵Z的迹,λ是一个正的常量参数,最优化目标函数的第四个组成部分,该项为避免过拟合的正则化项,定义如下:其中P(i)为第i种媒体类型的投影矩阵,β为正则化项的参数,介绍完最优化目标函数的四大组成部分,那么将这四大组成部分结合起来构成最优化目标函数,如下:式(6)是由式(1)、(2)、(4)、(5)组合而成,求解式(6)获得每种媒体最优的投影矩阵P(i)(i=1,2,...,s),将公式(6)中的式子记为Ω,直接用Ω对P(i)求偏导并让其置为0,得到如下结果:然后将式(7)的等式整理获得如下:接着通过迭代的方法找到最优的投影矩阵P(i)(i=1,2,...,s)。本专利技术的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:步骤二中,利用迭代方法求解最优化目标函数的方法如下:首先将多媒体数据库中有标签数据和无标签数据的特征向量进行归一化,然后利用随机矩阵初始化并且设置t=0和设置最大迭代次数,更新投影矩阵的等式如下:这里反复计算式(9),每次迭代后t=t+1,当两次迭代的改变率低于某个阈值(如0.001)或达到最大迭代次数时迭代终止,此时的P(i)(i=1,2,…,s)即为最优化目标函数的最优解,这就是使最优化目标函数最小时的最优的投影矩阵。本专利技术的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:步骤二中,投影多媒体数据的特征向量到共同空间的方法如下:使用最优的投影矩阵投影多媒体数据的特征向量到共同空间,根据媒体类型使用相应的投影矩阵,对于多媒体数据库中第i种媒体类型的一个特征向量利用第i个投影矩阵来投影,投影后的向量为c为多媒体数据库中语义类别的数目,最后不同媒体类型投影后的向量的维度是相同的且为c维,但分别保存各种媒体类型投影后的向量。本专利技术的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:步骤三中,提取用户提交的媒体数据的特征的方法如下:根据媒体的类型使用相应的模型提取出用户提交的媒体数据的特征。本专利技术的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:步骤三中,投影该媒体数据的特征向量到共同空间中;对于该媒体数据的特征向量,投影到共同空间中为向量,则此向量就是共同空间中的一个向量。本专利技术的基于子空间学习与半本文档来自技高网...

【技术保护点】
1.一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:步骤一,建立多媒体数据库,收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;步骤二,获得不同媒体类型的投影矩阵,定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;步骤三,进行跨媒体检索,提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。

【技术特征摘要】
1.一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:步骤一,建立多媒体数据库,收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;步骤二,获得不同媒体类型的投影矩阵,定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;步骤三,进行跨媒体检索,提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。2.如权利要求1所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:其中,步骤二中,定义最优化目标函数的方法如下:最优化目标函数包括四个组成部分,最优化目标函数的第一个组成部分:其中,表示第i种媒体的有标签数据的特征向量构成的矩阵,其中是第i种媒体的第p个样本数据的特征向量,n(i)是第i种媒体有标签数据的数量,d(i)是第i种媒体的每个样本数据对应的特征向量的维度;是第i种媒体类型的投影矩阵;表示第i种媒体有标签数据对应的标签向量构成的矩阵,c为多媒体数据库中语义类别的数量,是第i种媒体的第p个样本数据所对应的标签向量,s是多媒体数据库中媒体类型的数量,α是一个正的常量参数,||Z||F是矩阵Z的Frobenius范数,最优化目标函数的第二个组成部分,该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成,该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成,第二个组成部分定义如下:其中和是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵,和是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵,ε和μ为两个正的常量参数,用来平衡式(2),如果将式(2)最小化,则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离,最优化目标函数的第三个组成部分,在给出第三个组成部分之前,先构建跨媒体近邻图,对于每种媒体,分别构建它们的近邻图,并且构建近邻图的方式是一样的,对于每种媒体,用G(i)=(V(i),E(i))表示第i种媒体的近邻图,V(i)表示第i种媒体近邻图中的顶点,这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成,并且一个投影向量表示一个顶点,每种媒体数据投影向量的维度是相同的,E(i)表示这些顶点的边,计算跨媒体近邻图G(i)=(V(i),E(i))对应的权重矩阵其中中的i表示第i种媒体,p表示权重矩阵W(i)的第p行,q表示权重矩阵W(i)的第q列,表示第i种媒体对应的权重矩阵W(i)的第p行、第q列上的元素值,的定义如下:其中表示第i种媒体的第q个样本数据的特征向量的投影向量,表示的k近邻,接着给出最优化目标函数的第三个组成部分,该项考虑了在多媒体数据库中有标签和无标签媒体数据投影点的近邻关系,定义如下:其中,a(i)=n(i)+m(i)为多媒体数据库中第i种媒体有标签和无标签数据的数量,是一个图的归一化拉普拉斯矩阵,I是一个单位矩阵,D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,为D(i)对角线上的第p个元素值,是由第i种媒体有标签和无标签数据投影后的向量组成,是由第i种媒体的有标签数据和无标签数据的特征向量组成,tr(Z)表示矩阵Z的迹,λ是一个正的常量参数,最优化目标函数的第四个组成部分,该项为避免过拟合的正...

【专利技术属性】
技术研发人员:张鸿代刚
申请(专利权)人:武汉科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1