The invention discloses a classification method combined with learning feature selection and marker correlation based on multi label data, mainly for multi label data markers in the absence of classification problems, which comprises the following steps: Mark correlation matrix initialization; using the feature selection and marker correlation joint learning algorithm (JLFLLC) has marked correlation matrix and classifier parameter learning; prediction model; the classification and correlation feature selection marker joint learning algorithm is applied to multi label data, in order to improve the classification accuracy, multi label data. In addition, the present invention, the regularization technique is used in the model, the complexity of classification model control combined learning model and correlation marker size to prevent overfitting, further improve the classification results of multi label data.
【技术实现步骤摘要】
特征选择和标记相关性联合学习的多标记数据分类方法
本专利技术涉及机器学习和模式识别
,特别是一种基于特征选择和标记相关性联合学习的多标记数据分类方法。
技术介绍
在真实世界中,用一个标记难以确切地描述一些复杂的对象,学习对象可能与多个标记有关,如,在文本分类中,一则关于上海踩踏事件的新闻报道可能同时包含“上海”、“外滩”、“陈毅广场”、“踩踏事件”和“跨年夜活动”等多个概念类别标记;在图像分类中,一幅关于校园的图像可能同时与“草地”、“操场”、“建筑物”、“蓝天”和“白云”等多个语义概念标记有关。可见,同时具有多个标记的对象无处不在,而传统的监督学习方法难以很好地处理同时包含多个语义概念的对象,致使多标记学习成为机器学习、模式识别等领域中一个重要的研究热点。同时,在许多情况下,获得一个样本所属的完全标记是比较困难的,相反,获得部分标记却相对来说更容易些,即有部分标记缺失。在缺失标记的情况下,由于有些标记信息是缺失的,故难以通过计算标记的共现性或构建基于标记的邻接图来事先获得标记之间的标记性,也事先难以准确的给出先验知识来刻画标记之间的相关性。
技术实现思路
本专 ...
【技术保护点】
一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,包括以下步骤:步骤1、初始化标记相关性矩阵,对多标记数据的各个特征做归一化处理;步骤2、运用特征选择和标记相关性联合学习算法学习得到标记相关性矩阵和分类器参数:交替迭代更新标记相关性矩阵和分类器参数,直到满足迭代终止条件输出学习得到的标记相关性矩阵和分类器参数;具体如下:首先给出基于特征选择和标记相关性联合学习算法JLFLLC的模型如下所示:
【技术特征摘要】
1.一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,包括以下步骤:步骤1、初始化标记相关性矩阵,对多标记数据的各个特征做归一化处理;步骤2、运用特征选择和标记相关性联合学习算法学习得到标记相关性矩阵和分类器参数:交替迭代更新标记相关性矩阵和分类器参数,直到满足迭代终止条件输出学习得到的标记相关性矩阵和分类器参数;具体如下:首先给出基于特征选择和标记相关性联合学习算法JLFLLC的模型如下所示:s.t.sq,q=1,q=1,...,Q其中,xi表示第i个样本,xi∈Rd,Q表示标记个数,Rd为d维特征空间,d为特征个数,Yiq=+1表示第i个样本隶属于第q个标记,Yiq=-1表示第i个样本不隶属于第q个标记,Yiq=0表示第i个样本关于第q个标记的信息是缺失的,b表示偏差向量,b=[b1,...,bQ]∈R1×Q,bq为第q个偏差项,R1×Q为1×Q维的实数空间,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,Q]T∈RQ,RQ为Q维的实数空间,sq,m为第q个标记与第m个标记的相关性大小,1≤m≤Q、m为整数且m≠q,T为转置,W为权重矩阵,α和β为正则化参数,λ为惩罚参数;固定S,更新W和b,分类器参数包括W和b;将JLFLLC的模型的优化问题转化为如下等价的约束光滑凸优化问题,定义函数g(u,W)如下:其中,u=[u1,...,ud]T,u为模型的松弛变量,uj为u第j个分量,wj为W的第j个分量,η为折中因子,函数J(W)为光滑凸函数,为光滑凸的;采用基于Nesterov的加速梯度求解方法来求解问题(1),从而得到分类器参数;固定W和b,更新S;W和b固定时,将JLFLLC的模型的优化问题退化为如下问题:s.t.sq,q=1,q=1,...,Q进一步,上式进一步分解成Q个独立的子优化问题,其中,第q个子优化问题表示为:s.t.sq,q=1该问题是个光滑的凸优化问题,利用最优化方法直接求解得到S;步骤3、运用学习得到的标记相关性矩阵和分类器参数进行标记预测,得到分类结果;根据该分类结果获得多标记数据的分类模型,并根据该多标记数据的分类模型预测所有待分类的多标记数据的标记,输出多标记数据的分类结果。2.根据权利要求1所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,步骤1中初始化标记相关性矩阵,即假设初始化时同一标记之间是相关的,而不同标记之间不相关。3.根据权利要求1所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,初始化标记相关性矩阵为单位矩阵,归一化处理是使每个特征对应的特征向量的2范数为1。4.根据权利要求1所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,所述步骤2具体如下:首先给出基于特征选择和标记相关性联合学习算法的模型如下所示:s.t.sq,q=1,q=1,...,Q其中,xi表示第i个训练集样本,xi∈Rd,Q表示标记个数,Rd为d维特征空间,d为特征个数,Yiq=+1表示第i个样本隶属于第q个标记,Yiq=-1表示第i个样本不隶属于第q个标记,Yiq=0表示第i个...
【专利技术属性】
技术研发人员:杨明,吕静,何志芬,
申请(专利权)人:南京师范大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。