【技术实现步骤摘要】
一种基于深度图网络自编码器的无监督关系预测方法
本专利技术涉及大数据分析领域,尤其涉及一种基于深度图网络自编码器的无监督关系预测方法。
技术介绍
使用基于计算的关系预测算法是机器学习一个很重要的应用。目前的主要方法是把推荐问题的矩阵分解算法迁移到了这个问题上。然而,当这方法被迁移到求图上的节点表示的时候,会变成是一种直接编码的方法,独立地为每个节点训练出一个唯一嵌入向量,有以下不足的地方:(1)编码器内部节点之间没有参数共享(i.e.,编码器只是关于任意节点标识号的嵌入向量查询)。由于参数共享可以作为一种强大的正则化形式,这会产生统计学的有效性变低的问题,又由于每个节点的嵌入向量的计算都是独立,又导致了计算上的效率变低,这意味着参数数量必然随着的增加而增加。(2)直接编码方法在编码期间无法利用节点的属性。在许多规模很大的图上,节点都是有属性的,例如社交网络上的用户简介中的信息,这往往与节点在图中的位置以及扮演的角色高度关联。(3)直接编码方法存在固有的转导问题,即无法生成在训练集中没有见到的节点的嵌入 ...
【技术保护点】
1.一种基于深度图网络自编码器的无监督关系预测方法,其特征在于,包括如下步骤:/nS10 采集具有目标关系m对、实体数量为n的实体对数据集X;/nS20 对实体对数据进行预处理,将实体对数据划分K份测试集和训练集的组合;/nS30 将测试集转换成测试矩阵A
【技术特征摘要】
1.一种基于深度图网络自编码器的无监督关系预测方法,其特征在于,包括如下步骤:
S10采集具有目标关系m对、实体数量为n的实体对数据集X;
S20对实体对数据进行预处理,将实体对数据划分K份测试集和训练集的组合;
S30将测试集转换成测试矩阵Atest,将训练集转换成训练矩阵Atrain;
S40对训练集矩阵Atest规范化处理为邻接矩阵
S50定义编码器和解码器,搭建预测模型;
S60将预测模型遍历k份测试集和训练集进行训练并关系重构,得到k个训练后的预测模型;
S70遍历k个训练后的预测模型,获取目标关系的预测。
2.如权利要求1所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S20具体方法为:
对实体对数据进行K折交叉验证,所述K折交叉验证是指将实体对数据集平均分成k份,假设实体对数据集为X,实体对数据集的总样本数为s,那么X被平均分成k份后,得到{X1,X2,...,Xk},且|Xi|’表示第i个数据集的样本数,依次把Xi作为评价模型的测试集,其余的Xj(j≠i,1≤j≤k)并成一个集合,作为训练集,以此将实体对数据划分成K个不同测试集和训练集的组合以供训练。
3.如权利要求2所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S30具体方法为:
将测试集转换成测试矩阵Atest:假设测试集的样本数为p,训练集的样本数是t,则每个测试集和训练集组合的总样本数s=p+t,每个样本集共有n个节点,那么测试矩阵Atest={{xi,xj}|x≠j,x,j=1,...,n},其中{xi,xj}代表节点xi与节点xj连接而成的无向边,建立一个其中元素全为0的n×n的矩阵Atest,那么对于测试集中的任意一{xi,xj},令Atest中第xi行第xj列和第xj行,第xi列均取1;
将训练集转换成训练矩阵Atrain:训练集={{xi,xj}|x≠j,x,j=1,...,n},建立一个元素全为0的n×n矩阵Atrain,那么,对于训练集中任意一{xi,xj},我们令Atrain中第xi行,第xj列和第xj行,第xi列均取1。
4.如权利要求2所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S40对训练集矩阵Atest规范化处理为邻接矩阵的计算式如下:
其中,I是n×n的单位矩阵,即除了对角线元素是1之外,其他位置的元素均是0,是矩阵的度矩阵,它是一个对角矩阵,其对角线上的元素被定义为表示矩阵的第i行第j列的元素,dii表示度矩阵第i行第i列的元素。
5.如权利要求2所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S50中的编码器定义如下:
编码器最后的输出是把用于解码器,
解码器定义如下:
其中,Y∈{I,A},当Y=A时,和HY去除边,当Y=I时,和HY去除节点,Dropout(Y,p)是随机失活函数,它将以概...
【专利技术属性】
技术研发人员:蔡瑞初,陈学信,郝志峰,温雯,吴迪,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。