The embodiment of the invention provides a heterogeneous information network method and device for semi supervised learning, according to the summary of the mapping of heterogeneous information network type multiple entities; heterogeneous information network chart is divided into several sub graphs, each subgraph corresponds to a graph element, the adjacency matrix is calculated respectively each of the element graph; among them, the subgraph including default entity types; marked the implementation of each of the yuan to preset categories of the transfer process, the categories of the plurality of first marker vector, the first prediction label to obtain the amount of integrated second categories the predicted label vector, according to the second predicted labels of the unlabeled nodes labeled vector prediction results, the study applies only to overcome the limitations of the homogeneous information network based on the existing semi supervised graph, and can It can effectively improve the efficiency of semi supervised learning.
【技术实现步骤摘要】
异构信息网络的半监督学习方法及装置
本专利技术涉及机器学习领域,尤其涉及一种异构信息网络的半监督学习方法及装置。
技术介绍
机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能,机器学习方法例如监督学习方法,通常要求历史数据都有明确的概念标记(称为有标记数据)且要求有大量的有标记数据。在很多现实任务中,由于概念标记的获取需要耗费大量的人力物力资源,因此有标记数据通常是稀少的,而大量没有概念标记的历史数据(称为未标记数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题,而半监督学习方法是应用部分标记的数据进行训练的一种机器学习算法。一种主流的半监督学习方法为图的半监督学习,所谓的图主要是基于数据相似度的k最近邻度,但是这种方法将图中的实体和边看作是同一类型。在真实世界中,存在各种类型的数据,从而构成了异构信息网络,异构信息网络的半监督学习方法已经得到广泛关注。现有技术通过预设元路径进行异构信息网络的半监督学习,随机游走的路径需由元路径的类型来限定,例如,如图1b所示,当随机游走的路径 ...
【技术保护点】
一种异构信息网络的半监督学习方法,其特征在于,包括步骤:获取多个实体的信息构建异构信息网络,并根据所述多个实体的类型构建所述异构信息网络的概要图;其中,所述异构信息网络中的每一节点与每一实体相对应;将异构信息网络的概要图划分为若干个子图,每一所述子图对应一元图,分别计算每一所述元图的邻接矩阵;其中,所述子图包括预设的实体类型;根据每一所述元图的邻接矩阵,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量;根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。
【技术特征摘要】
1.一种异构信息网络的半监督学习方法,其特征在于,包括步骤:获取多个实体的信息构建异构信息网络,并根据所述多个实体的类型构建所述异构信息网络的概要图;其中,所述异构信息网络中的每一节点与每一实体相对应;将异构信息网络的概要图划分为若干个子图,每一所述子图对应一元图,分别计算每一所述元图的邻接矩阵;其中,所述子图包括预设的实体类型;根据每一所述元图的邻接矩阵,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量;根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。2.如权利要求1所述的异构信息网络的半监督学习方法,其特征在于,所述标记传递过程为惰性随机游走过程,所述惰性随机游走过程的转移概率矩阵为:P=(1-α)I+αWD-1其中,P为所述惰性随机游走过程的转移概率矩阵,α为控制标记向邻居节点传递的概率,W为邻接矩阵,D为对角阵,且对角元素Dii=∑Wij。3.如权利要求2所述的异构信息网络的半监督学习方法,其特征在于,所述惰性随机游走过程具体为:从已标记节点出发进行惰性随机游走,直到所有未标记节点的第一预测标记向量不再改变时则停止;其中,所述所有未标记节点的第一预测标记向量不再改变需满足存在稳态分布概率π使得P=πP。4.如权利要求2所述的异构信息网络的半监督学习方法,其特征在于,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量具体为:基于预设的类别,根据每一所述元图的邻接矩阵通过以下公式进行迭代运算:其中,所述为时刻t+1已学习的标记向量,为时刻t已学习的标记向量,为元图si的邻接矩阵,为对角阵,且对角元素Ik初始标记向量;当迭代至所述获得所述类别的若干个第一预测标记向量,具体为:其中,所述为基于类别k和元图si的第一预测标记向量。5.如权利要求1所述的异...
【专利技术属性】
技术研发人员:姜和,宋阳秋,王晨光,张铭,孙怡舟,
申请(专利权)人:广州市香港科大霍英东研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。