一种基于深度学习的图节点多标签分类方法技术

技术编号:15911000 阅读:57 留言:0更新日期:2017-08-01 22:35
本发明专利技术公开了一种基于深度学习的图节点多标签分类方法,首先加载图数据模块,解析图数据,使用字典的形式保存;生成游走路径模块,完成在图数据中的随机游走,返回生成游走路径;生成节点特征向量模块,将上一步返回的游走路径,以及指定的向量表示维数和上下文窗口大小作为输入,调用word2vec算法计算每一个图节点的特征向量表示;生成训练数据模块,从所有图节点中随机抽取一定百分比的节点作为训练节点数据,对于每一个节点,取其特征向量与该节点对应的标签序列组成二元组作为一个训练样本;最后构建深度置信网络模型。本发明专利技术提出的图节点多标签分类算法可以取得比传统的多标签分类算法更高的正确率。

A depth learning based method for multi label classification of graph nodes

The invention discloses a deep learning based on graph node multi label classification method, first map data loading module, analysis of data, using the dictionary stored; walk the path generating module, complete random walk on the graph data and returns the resulting migration paths; generating node feature vector module, will step back walk the path, and the specified vector dimension and context window size as input feature vectors of each graph node computing called word2vec algorithm; generating training data from all nodes in the graph module, with a certain percentage of the selected node as the training data for each node, a node, the feature vector sequence tags with the node corresponding to the composition of the two tuple as a training sample; finally build a deep belief network model. The proposed graph node multi label classification algorithm can achieve higher accuracy than the traditional multi label classification algorithm.

【技术实现步骤摘要】
一种基于深度学习的图节点多标签分类方法
本专利技术提出了一种采用深度学习算法深度置信网络分类模型对网络中的节点进行多标签分类的方法,涉及网络中节点的特征表示,深度置信网络的分类模型的构建,以及训练数据的生成等。
技术介绍
基于游走的网络表示学习算法,例如deepwalk,是利用了word2vec的理论方法,将网络中的节点与自然语言处理中的词单元进行了类比,将网络中的一条一条的连接路径类比作自然语言处理中的一条语句;利用概率语言模型中求解每一个词语之间共现关系(即所有的条件概率参数)的方法来探讨网络节点之间的连接结构;利用生成词向量的方法生成了网络中节点的向量表示方法。通过这种类比算法得到的网络节点的向量,反映了对应网络节点与周围邻居节点联系的结构特征,同时实现了网络节点的低维向量表示,这就为针对网络数据的一些数据挖掘问题,比如网络节点分类,链路预测,社区发现等等,提供了一个新的使用机器学习算法进行处理或是优化的思路。深度置信网络计算模型采用全新的网络结构和训练方式,很好地解决了传统神经网络模型中特征人工提取、容易陷入局部极小以及深层网络难以优化的三个问题。现在,DBN已被广泛作为一种本文档来自技高网...
一种基于深度学习的图节点多标签分类方法

【技术保护点】
一种基于深度学习的图节点多标签分类方法,其特征在于包含以下步骤:步骤1:加载图数据模块,解析图数据,使用字典的形式保存,其中字典的key表示图中的某一个节点,字典的value表示该节点的邻居节点序列;步骤2:生成游走路径模块,完成在图数据中的随机游走,返回生成游走路径;步骤3:生成节点特征向量模块,将上一步返回的游走路径,以及指定的向量表示维数和上下文窗口大小作为输入,调用word2vec算法计算每一个图节点的特征向量表示;步骤4:生成训练数据模块,从所有图节点中随机抽取一定百分比的节点作为训练节点数据,对于每一个节点,取其特征向量与该节点对应的标签序列组成二元组作为一个训练样本,同时,选取一...

【技术特征摘要】
1.一种基于深度学习的图节点多标签分类方法,其特征在于包含以下步骤:步骤1:加载图数据模块,解析图数据,使用字典的形式保存,其中字典的key表示图中的某一个节点,字典的value表示该节点的邻居节点序列;步骤2:生成游走路径模块,完成在图数据中的随机游走,返回生成游走路径;步骤3:生成节点特征向量模块,将上一步返回的游走路径,以及指定的向量表示维数和上下文窗口大小作为输入,调用word2vec算法计算每一个图节点的特征向量表示;步骤4:生成训练数据模块,从所有图节点中随机抽取一定百分比的节点作为训练节点数据,对于每一个节点,取其特征向量与该节点对应的标签序列组成二元组作为一个训练样本,同时,选取一定百分比的节点作为验证节点数据,剩余节点作为测试节点数据,每一个验证样本和测试样本同样采用二元组的形式;步骤5:构建深度置信网络模型,输入层神经元个数为图节点特征向量的维数,隐层个数及神经元个数可以依据训练效果灵活调整,输出层的神经元个数为标签个数.对于每一个训练样本,其中x向量作为模型输入,y向量作为训练或测试的目标。2.根据权利要求1所述的基于深度学习的图节点多标签分类方法,其特征在于步骤2中生成游走路径模块具体步骤为,假设指定游走次数为N,在每一次的游走中首先将图中的节点序列随机洗牌,然后依次从每一个节点开始游走,游走完成指定路径长度L后,保存游走路径path_list到路径集合Paths...

【专利技术属性】
技术研发人员:李涛王次臣李华康
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1