一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法技术

技术编号:25951792 阅读:46 留言:0更新日期:2020-10-17 03:44
本发明专利技术公开了一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法,包括以下步骤:S1,处理原始社交样本数据并提取短语和与该短语相关的自变量的元组,构建结构化事件元组并链接到知识图谱,从知识图谱中构造子图并提取事件嵌入向量;S2,将社交网络的网络结构用邻接矩阵表示,以向量形式融合事件嵌入向量和网络邻接矩阵;S3,建立基于改进时间卷积网络的链路预测模型,将事件嵌入向量与网络邻接矩阵的融合向量作为预测模型的输入,经过迭代训练以获取最优模型,以对社交网络链路进行预测。本发明专利技术能够提高社交网络链路的预测精度。

【技术实现步骤摘要】
一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法
本专利技术涉及网络分析
,特别是涉及一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法。
技术介绍
社交网络不仅包含用户间的网络结构,同时存在大量用户所分享的文本信息,具有规模大、动态变化、信息混杂等网络大数据通常所具有的特点。链路预测作为数据挖掘领域中的研发方向之一,它的研发目标是预测当前网络中节点间是否存在缺失的连边或是未来网络中是否会产生新的连边。链路预测主要是利用目前已有的网络结构去预测节点间潜在关系,如在朋友关系的预测中,将链路预测产生的结果作为“朋友推荐”推送至相应的用户,在推荐系统中研究如何整合海量的多源异构数据,构建更加贴合用户偏好需求的用户模型,以提高推荐系统的性能和用户满意度。然而现有的社交网络链路预测方法仍存在预测精度的问题。
技术实现思路
针对上述问题,本专利技术的目的在于提出一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法,以提高社交网络链路的预测精度。本专利技术采用的技术方案如下:一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法,社交网络中链路状态的变化受到用户节点的影响,社交网络拓扑结构与用户节点的社交文本信息相关,其链路状态的变化隐含着某种内在特征,这种特征能在一定程度上体现节点对连接的变化趋势,专利技术的研究重点在于以合适的方式提取网络链路的内在特征。整个预测过程具体步骤如下:S1,文本数据处理:从原始样本数据中去除冗余数据,从提取到的文本中读取句子,并提取短语和与该短语相关的自变量的元组,将非结构化社交文本转换为结构化事件元组,利用实体链接技术从知识图谱构造一个子图,通过知识图谱的嵌入方法从中提取事件嵌入向量。S2,网络样本融合:社交网络的网络结构通过邻接矩阵表示,邻接矩阵中包含网络中的节点集和边集,网络连边即为用户节点间关注/被关注关系。社交网络的结构和非结构信息由邻接矩阵和事件嵌入向量融合结果表示。S3,构建时间卷积网路预测模型:以融合信息作为链路预测模型的输入。选用时间卷积网络的模型结构、超参数及优化算法等,将事件嵌入向量与网络邻接矩阵融合后作为模型的原始输入。经过不断地迭代训练并测试以获取最优模型,从而对社交网络链路进行有效预测。其中,步骤S1具体包括:S11,从原始样本数据中去除冗余数据,从提取到的文本中读取句子,并提取短语和与该短语相关的自变量的元组,将非结构化社交文本转换为结构化事件元组;S12,将事件元组链接到开源知识图谱数据库中,利用实体链接技术从知识图谱构造一个子图,通过知识图谱嵌入方法从中提取事件嵌入向量;S13,利用TransE算法作为知识图谱的嵌入方法,通过嵌入方法从知识图谱中提取事件嵌入向量P,设网络用户节点数为n,事件嵌入向量表示为Pi,(i=1,2,3,…,n),每个用户i的文本信息最终由对应的事件嵌入向量Pi来表示。其中,步骤S2具体包括:S21,社交网络的网络结构通过邻接矩阵表示,邻接矩阵中包含网络中的节点集和边集,节点集为用户节点,边集为用户节点间关注/被关注关系,社交网络的结构化信息和非结构化信息分别由邻接矩阵和事件嵌入向量表示;S22,网络结构邻接矩阵由Ng表示,从网络结构的邻接矩阵Ng的边集E中选择用户节点Vi的邻接矩阵的向量ai并对其进行维度处理后,得到向量a’i,再与事件嵌入向量Pi进行融合,得到融合向量X={a’i,Pi}。其中,步骤S3具体包括:S31,将所述融合向量X作为预测模型的输入,网络各层为全连接网络,各层之间使用扩张卷积,扩张卷积率按指数增长;S32,时间卷积网路在连接神经网络各层时均采用残差连接,使输入数据跳过中间环节直接跨层输入,其结果作为该层最终的输出数据,对应的激活函数为ReLU函数,残差连接封装成为1个残差模块,即为组成时间卷积网络的基本单元;S33,在时间卷积网络中,第l层有Nl个卷积核,且卷积核长度为dl,则当前层所包含的权重为:其中每一个卷积核的权重表示为给定前一层输出Xl-1,则第l的输出表示为:Xl=β(W*Xl-1),网络输出层为LogisticRegression(逻辑回归)分类器;S34,选取多组用户构建训练样本集,按照预设比例将样本集分割为训练集和测试集,训练集用于训练模型的参数,测试集用于测试模型的泛化性能。根据本专利技术提供的采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法,具有以下有益效果:本专利技术从社交网络用户文本信息中提取结构化事件元组,将它们链接到知识图谱,通过多通道串联得到事件嵌入向量,把事件嵌入向量与网络邻接矩阵融合,将融合信息作为基于时间卷积网路链路预测模型的输入,提取网络链路随时间的演化规律,从而能够对社交网络的链路进行有效预测;本专利技术提取社交网络的复杂特性和大量文本语义信息构建社交网络的实体知识图谱,将社交网络结构与知识图谱的嵌入向量融合,建立网络特征模型,该方法提取社交网络中用户节点对的拓扑信息和非拓扑信息,构建基于时间卷积网络预测模型提取社交网络的内在特征,结合节点自身属性,能够提高社交网络链路预测的精度。附图说明本专利技术实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1社交网络文本信息提取过程图;图2为事件三元组示意图;图3为时间卷积网络卷积示意图;图4为时间卷积网络残差链接结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的实施例提供一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法,该方法通过建立时间卷积网络模型来实现自发地提取节点间链路特征并进行链路预测,该方法包括步骤S1~S3。S1,处理原始社交样本数据并提取短语和与该短语相关的自变量的元组,构建结构化事件元组并链接到知识图谱,从知识图谱中构造子图并提取事件嵌入向量。其中,步骤S1具体包括:S11,样本数据处理,筛选出发表动态次数较多的用户,然后从这些用户的文本信息中去除掉非文本字符,如数字、表情符号等,再去除分词、停用词和“分享”、“转发”、“点赞”等冗余词。S12,从提取到的文本中读取句子,并提取短语和与该短语相关的自变量的元组,将非结构化社交文本转换为结构化事件元组,提取过程如图1所示。设定事件元组e为三元组(h,r,t)的有限集合,每个三元组表示是一个事实陈述句,其中,h是主语,r是谓语,t是宾语,e=(h,r,t)表示h与t之间具有联系,将每个三元组实例中的关系r看做从实体h到实体t的翻译,通过不断调整h、r和t的向量,使(h+r)尽可本文档来自技高网...

【技术保护点】
1.一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法,其特征在于,包括以下步骤:/nS1,处理原始社交样本数据并提取短语和与该短语相关的自变量的元组,构建结构化事件元组并链接到知识图谱,从知识图谱中构造子图并提取事件嵌入向量;/nS2,将社交网络的网络结构用邻接矩阵表示,以向量形式融合事件嵌入向量和网络邻接矩阵;/nS3,建立基于改进时间卷积网络的链路预测模型,将事件嵌入向量与网络邻接矩阵的融合向量作为预测模型的输入,经过迭代训练以获取最优模型,以对社交网络链路进行预测。/n

【技术特征摘要】
1.一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法,其特征在于,包括以下步骤:
S1,处理原始社交样本数据并提取短语和与该短语相关的自变量的元组,构建结构化事件元组并链接到知识图谱,从知识图谱中构造子图并提取事件嵌入向量;
S2,将社交网络的网络结构用邻接矩阵表示,以向量形式融合事件嵌入向量和网络邻接矩阵;
S3,建立基于改进时间卷积网络的链路预测模型,将事件嵌入向量与网络邻接矩阵的融合向量作为预测模型的输入,经过迭代训练以获取最优模型,以对社交网络链路进行预测。


2.根据权利要求1所述的采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法,其特征在于,步骤S1具体包括:
S11,从原始样本数据中去除冗余数据,从提取到的文本中读取句子,并提取短语和与该短语相关的自变量的元组,将非结构化社交文本转换为结构化事件元组;
S12,将事件元组链接到开源知识图谱数据库,利用实体链接技术从知识图谱构造一个子图,通过知识图谱嵌入方法从中提取事件嵌入向量;
S13,利用TransE算法作为知识图谱的嵌入方法,通过嵌入方法从知识图谱中提取事件嵌入向量P,设网络用户节点数为n,事件嵌入向量表示为Pi,(i=1,2,3,...,n),每个用户i的文本信息最终由对应的事件嵌入向量Pi来表示。


3.根据权利要求2所述的采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法,其特征在于,步骤S2...

【专利技术属性】
技术研发人员:宋修洋刘琳岚
申请(专利权)人:南昌航空大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1