基于特征相关隐式编码的标签空间降维方法及系统技术方案

技术编号：9991297 阅读：119 留言：0更新日期：2014-05-02 05:23

本发明专利技术提出一种基于特征相关隐式编码的标签空间降维方法，包括以下步骤：提供训练数据集；根据训练数据集构造特征矩阵和标注矩阵；根据特征矩阵得到降维矩阵与特征矩阵的最优相关函数，并根据标注矩阵得到降维矩阵与标注矩阵的最优恢复误差函数；根据最优相关函数和最优恢复误差函数构造目标函数；应用目标函数优化降维矩阵，并根据优化后的降维矩阵求解出解码矩阵；利用优化后的降维矩阵学习训练以获取预测模型；提取测试实例特征，并利用预测模型预测测试实例在潜语义空间中的表示；以及利用解码矩阵对测试实例在潜语义空间中的表示进行解码，以获取测试实例在原始标签空间的分类结果。本发明专利技术的方法，压缩率大、稳定性好、普适性强。

全部详细技术资料下载

【技术实现步骤摘要】
基于特征相关隐式编码的标签空间降维方法及系统
本专利技术涉及计算机软件技术，尤其涉及一种基于特征相关隐式编码的标签空间降维方法及系统。
技术介绍
多标签分类技术（Multi-labelclassification）主要用于将某个实例划分到一个或者多个类别之中，从而能更加完整、细致地描述实例的特征，而实例所归属的类别亦被称为其所对应的标签（Label）。多标签分类技术在现实中有着十分广泛的应用，诸如多标签文本分类、图像语义标注、音频情感分析等等。近年来，随着网络应用的大量涌现与迅猛发展，多标签分类应用开始面临数据量膨胀所带来的诸多挑战和困难，其中包括标签空间的快速增长等。例如，在图片分享网站Flickr上，用户在上传图片时可以从数以百万计甚至更多的词汇表中选择若干用于描述图片的内容。对于诸如网络图像语义标注等借助于Flickr数据的多标签分类应用而言，这些文本词汇将被视为不同的标签，从而如此庞大的标签数量将给这些应用底层的算法学习过程带来成本上的极大提升。对于多标签分类而言，目前大量方法的基本思想仍然是将其分解为多个二分类问题，即为每一个标签训练相应的预测模型（Predictivemodel）用于判断一个实例是否属于该标签，最终将该实例所归属的所有标签作为其对应的多个描述。当标签空间急速膨胀，即标签数量十分庞大时，这些方法所需要训练的预测模型数量也急速增加，从而导致其训练成本极大上升。标签空间降维的出现为解决标签数量庞大情况下的多标签分类问题指出了一个可行的探索方向，并提供了技术支撑，近几年来逐步成为了研究界的一个热点，并涌现出了若干优秀的降维方法。例如，利...
基于特征相关隐式编码的标签空间降维方法及系统

【技术保护点】

【技术特征摘要】
1.一种基于特征相关隐式编码的标签空间降维方法，其特征在于，包括以下步骤：提供训练数据集；根据所述训练数据集构造特征矩阵和标注矩阵；根据所述特征矩阵得到降维矩阵与所述特征矩阵的最优相关函数，并根据所述标注矩阵得到所述降维矩阵与所述标注矩阵的最优恢复误差函数，其中，所述根据所述特征矩阵得到降维矩阵与所述特征矩阵的最优相关函数具体包括：所述标注矩阵结合隐式编码方法得到降维矩阵；将所述降维矩阵与所述特征矩阵之间的相关性分解成相关性之和，并通过余弦相关性函数的形式表达如下：其中，r是特征矩阵X的一个线性映射，用于将特征矩阵X投影到降维矩阵C中任一个列c所在的空间；根据所述余弦相关性函数获得最优线性映射r，并得到所述降维矩阵C中任一个列c与特征矩阵X的最优相关性；通过拉格朗日乘子法得到最优的线性映射r*，并根据所述最优线性映射r*得到最优相关函数：其中，C·,i表示降维矩阵C的第i列；其中，所述根据所述标注矩阵得到所述降维矩阵与所述标注矩阵的最优恢复误差函数具体包括：所述标注矩阵结合隐式编码得到所述降维矩阵；将所述降维矩阵恢复到所述标注矩阵的误差函数表达式如下：其中，当ε最小时，恢复误差最小，D是为保证解码效率而引入的线性解码矩阵，表示的是矩阵的Frobenius范式的平方；通过最小化ε得到最优恢复误差函数，表达式如下：根据所述最优相关函数和所述最优恢复误差函数构造目标函数；应用所述目标函数优化所述降维矩阵，并根据优化后的降维矩阵求解出解码矩阵；利用所述优化后的降维矩阵学习训练以获取预测模型；提取测试实例特征，并利用所述预测模型预测所述测试实例在潜语义空间中的表示；以及利用所述解码矩阵对所述测试实例在所述潜语义空间中的表示进行解码，以获取所述测试实例在原始标签空间的分类结果。2.根据权利要求1所述的方法，其特征在于，所述潜语义空间的各个维度相互正交。3.根据权利要求1所述的方法，其特征在于，对所述测试实例在原始标签空间的分类结果进行二值化处理。4.根据权利要求1所述的方法，其特征在于，所述潜语义空间的维数小于所述原始标签空间的...

【专利技术属性】
技术研发人员：丁贵广，林梓佳，林运祯，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人