一种融合了点对和邻域信息的建图方法技术

技术编号:8683119 阅读:218 留言:0更新日期:2013-05-09 03:05
本发明专利技术公开一种融合了点对和邻域信息的建图方法,步骤为:获取n个样本构成的数据集X,得到经降维处理后的特征向量,它们在图G中用节点表示;基于欧式距离找到数据集X中所有元素的K近邻;建立融合样本点的邻域和点对的信息的优化模型;求解优化模型,对每一个样本及其K近邻,确定五个中间变量,获得n个由边权值构成的向量;将获得的权值向量排列成图G的邻接矩阵,从而得到图模型。本发明专利技术在建图的过程中同时融合了样本点的邻域及其点对信息,因而能更加准确地表示样本之间联系的紧密程度,建立的是一个二次规划模型,可方便、快速地进行求解。本发明专利技术能够获得更加合理、有效的图模型,在分类方面能够取得更高的准确率。

【技术实现步骤摘要】

本专利技术属于机器学习与模式识别领域,具体地,涉及。
技术介绍
在机器学习领域,图模型的使用是十分广泛的。在半监督学习(Sem1-supervisedLearning)、谱聚类(Spectral Clustering)、尺度学习(Metric Learning)、流形学习(Manifold Learning)、马尔科夫随机场(Markov Random Fields)、条件随机场(Conditional Random Fields)等诸多领域,图模型都发挥了非常重要的作用。图模型可以非常清楚地表示样本点之间的联系,具有直观、快速、高效的特点,因而受到越来越多人的重视。在机器学习与模式识别领域,建立一个准确、有效的图模型,对工业应用具有非常重大的意义,比如:(I)可以提高手写体数字的识别率,从而为邮件自动分拣系统的邮政编码识别提供帮助;(2)可以应用于人脸识别领域,为人脸打卡考评或是犯罪嫌疑人查找提供支持;(3)可以应用于疾病诊断的专家系统中,从而为疾病的自动智能诊断提供辅助;可以应用于生物信息学领域,提高蛋白质种类的识别及标注准确率。等等。一个完整的图模型通常包含节点和边两个要素,它可以用G=〈V,E>来加以表示,其中G代表整张图(Graph), V代表节点集(Vertex set), E代表连接这些节点的边所构成的集合(Edge set)。附图说明图1给出了典型的图模型表示。机器学习与模式识别的基本任务是在函数空间『找到函数/€<F,建立样本特征向量X = (W-A)eRd到标签y的映射,即。假定有η个样本点构成的数据集X=I(X11Y1), (x2,y2),...,(xn,yn)},为了实现对其中样本的分类,建图时常用节点代表这些样本,而用边去表示样本之间的相似性,由一条边同时相连的两个点称之为“点对”。基于这个框架,目前已有的建图方法归纳如下:①全接图(Fully Connected Graph)。意思是图中的每两个样本均构成一个点对,由一条边相连,即所有的样本均直接发生关系。②K近邻图(KNN Graph)。每个样本只与其K个近邻发生关系,即只有样本和其近邻之间有边相连。③互K近邻图(Mutual KNN Graph)。与②不用之处在于,只有当两个样本互为对方的K近邻时,才用边将它们相连。④ε近邻图(εΝΝ Graph)。当两个样本之间的欧氏距离X1-X21 I ( ε时,用边将它们相连,其中ε为事先预设的阈值。对于以上所有的建图方法,还可进一步定义边的权重ω来衡量样本之间联系的紧密程度。主要方法有:①0-1权值(Ο-lWeight)。只要两个样本间有边相连,则权值就为1,否则为O。这种方法认为所有点对之间的联系紧密程度都一样。②高斯核(Gaussian Kernel)。点对之间联系的紧密程度与它们之间的相似性有关。具体采用如下的高斯核函数来描述:本文档来自技高网...

【技术保护点】
一种融合了点对和邻域信息的建图方法,其特征在于,包括如下步骤:第一步,获取n个样本构成的数据集X,得到经降维处理后的特征向量x1,x2,…,xn,它们在图G中用节点表示;第二步,基于欧式距离找到数据集X中所有样本元素的K近邻;第三步,建立融合样本点的邻域和点对的信息的优化模型;假设对于一个样本xi,其K个近邻xi1,xi2,…,xiK,相应的权重向量ωi=(ωi1,ωi2,…,ωiK),xi的两个近邻xij,xik,1≤i≤n,k≤K,则优化模型如下:minωi=(ωi1,ωi2,···,ωiK)ϵi=||xi-Σj=1Kωijxij||2+γΣj=1K-1Σk=j+1K(ωij||xi-xij||-ωik||xi-xik||)2令与xi相连的所有边权和为1,且这些权值都是非负的,则:Σj=1Kωij=1,ωij≥0其中:γ>0为两项之间的权重系数,||·||代表向量的l?2范数,上述模型的第一项表示某一样本点xi与其邻域的关系,第二项则表示近邻间点对之间的关系;第四步,求解第三步的优化模型,对每一个样本xi及其K近邻,确定以下H,p,A,b和q五个中间变量,获得n个由边权值构成的向量ωi,1≤i≤n;为求解上述优化模型,将其改写为更简洁的矩阵形式:minωi=(ωi1,ωi2,···ωiK)Tϵ(ωi)=12ωiTHωi+pTωi+q,s.t.Aωi=b,ωi≥0其中上标T代表向量的转置,H为一个对称的K×K的矩阵对每一个样本xi及其K近邻,按照以下公式确定H,p,A,b和q五个中间变量,这五个变量唯一地确定了一个二次规划的形式;Hj,k=2(||xij||2+γ(K-1)||xi-xij||2)j=k2(xijTxik-γ||xi-xij||||xi-xik||)j≠kp=(-2xiTxi1···-2xiTxik···-2xiTxiK)T,q=||xi||2,第五步,将获得的权值向量ω1~ωn排列成图G的邻接矩阵,从而得到图模型。FDA00002753011400022.jpg,FDA00002753011400023.jpg...

【技术特征摘要】
1.一种融合了点对和邻域信息的建图方法,其特征在于,包括如下步骤: 第一步,获取n个样本构成的数据集X,得到经降维处理后的特征向量Xl,X2,…,xn,它们在图G中用节点表示; 第二步,基于欧式距离找到数据集X中所有样本元素的K近邻; 第三步,建立融合样本点的邻域和点对的信息的优化模型; 假设对于一个样本Xi,其K个近邻xi1, xi2, .., xiK,相应的权重向量ωi=(ωi1,ωi2,…,ω iK),Xi的两个近邻Xij,xik, 1≤i≤n,k≤K,则优化模型如下:2.根据权利要求1所述的融合了点对和邻域信息的建图方法,其特征在于所述优化模型中,调节其中的γ参数,这个参数代表了建模过程中对邻域信息或点对信息的相对重视程度,其调节根据用户的实际需求和应用背景而定,如果用...

【专利技术属性】
技术研发人员:宫辰傅可人杨杰
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1