基于时序文本网络的社区检测与用户关系预测方法技术

技术编号:16819151 阅读:35 留言:0更新日期:2017-12-16 12:36
本发明专利技术公开了一种基于时序文本网络的社区检测与用户关系预测方法,包括:基于原始数据构建时序文本网络;针对时序文本网络,构建基于关系图模型的生成模型;利用梯度下降法构建生成模型的推断过程;根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系;根据提取出的社区信息,进行网络节点间的连接预测。本发明专利技术构建了全新的社区检测方法,并提出了社区相关度的概念,大幅提升了社区检测的准确性和解释性。

Community detection and user relationship prediction method based on time series text network

The invention discloses a forecasting method, community detection and user relationship network based on temporal text include: constructing sequential text network based on the original data; for sequential text network, build the relationship model based on graph model; the inference process by using the gradient descent method to construct model; according to the inference process of the model, the training of sequential text network, extract information and the relationship between the community community; according to the extracted information of community connection prediction between network nodes. The invention constructs a new method of community detection, and puts forward the concept of community correlation, which greatly improves the accuracy and interpretability of community detection.

【技术实现步骤摘要】
基于时序文本网络的社区检测与用户关系预测方法
本专利技术涉及到时序文本网络探社区检测领域,具体地,涉及一种基于时序文本网络的社区检测与用户关系预测方法。
技术介绍
网络是一个强大的语言,它能够阐释社会、自然以及学术领域中的数据关系。一个理解网络的方法是定义和分析一组有着相同属性的节点。这样的一组节点可以被解释为社交网络中的组织单位,或者引用网络中的相同领域。探测社区问题就是在网络中寻找这样的一组节点的研究任务。传统的方法大都基于一个节点只属于一个社区这个假设,集中寻找离散社区。那么在除去这个假设的情况下,交叉社区检测问题变得越来越普遍并在最近引起了越来越多的关注。尽管在过去网络中的交叉多等级社区问题已经被讨论过,但在一个大的网络中定义一个有意义的社区网络依旧是个艰难的任务。大多数方法很难应用于大型网络,并且在缺少有信服力的标准情况下,对检测出的社区进行评估极其困难。因此,尽管网络问题已经被广泛的研究,小型网络中的社区的存在和特性已经被熟知,在特大型网络中定义交叉社区的方法依旧不甚清晰。探测重叠社区一般有两种形式的信息可以利用。第一种是链型结构,例如边的有无。经典方法大都集中于这种形式的信息,并致力于获取一组节点,这些节点之间的连接相比于外部网络而言更为紧密。第二种是节点属性,包括在线的用户档案,预先存在的蛋白质功能和论文的文本内容。由于链接结构中普遍存在的噪音,同时基于这两种方法检测社区信息的方法已经越来越受欢迎。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于时序文本网络的社区检测与用户关系预测方法,研究在时序文本网络中探测交叉社区的问题,在时序文本网络识别有意义的社区为后续应用开发提供了有用的知识。为实现上述目的,本专利技术是根据以下技术方案实现的:一种基于时序文本网络的社区检测与用户关系预测方法,包括如下步骤:步骤S1:基于原始数据构建时序文本网络;步骤S2:针对时序文本网络,构建基于关系图模型的生成模型;步骤S3:利用梯度下降法构建生成模型的推断过程;步骤S4:根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系,其中社区指表现出较高相关性的点的集合,社区间的关系指的是社区之间的相似度;步骤S5:根据提取出的社区信息,进行网络节点间的连接预测。上述技术方案中,所述步骤S1包括:步骤S101:将顶点集V设为空集,将边集E设为空集;步骤S102:将原始数据集中的每一篇文章加到顶点集V中;步骤S103:顶点集V中的每一篇文章对应一个标签T,该标签是指每一篇文章的发表时间;步骤S104:将原始数据集中文章间的链接关系加到边集E中;步骤S105:(V,E;T)的集合构成图G,图G为时序文本网络。上述技术方案中,所述步骤S2包括:步骤S201:定义节点u与节点v之间通过社区i、j产生连接的概率:p(u,v,i,j)=(1-exp(-FuiηijFvj))δ(u→v),其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;步骤S202:定义节点u与节点v之间通过任意两个社区产生连接的概率为:其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;表示节点u与所有社区的连接强度的向量的转置;Fv表示节点v与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;步骤S203:针对时序文本网络,根据步骤S202定义的公式,生成时序文本网络GP:GP=(V∪Vω,E∪Eωd;T∪Tω)其中,V、E、T分别是时序文本网络中的节点集合、边集合以及时间戳集合;Vω代表一个单词;存在于Eωd的边(ωi,dj)代表单词i存在于文章j中;Tω代表单词的时间戳,被设置成0;对于该网络中任意两点,根据S202所定义的概率,预测两点间是否有边存在。上述技术方案中,所述步骤S3包括:步骤S301:利用块坐标梯度下降法,对于对每个节点u,假设对Fv不变且η不变,首先更新Fu,即l(Fu)为针对Fu的对数似然函数,具体地:其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,如图3所示,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵,为对应的转置矩阵;步骤S302:利用梯度下降法,根据如下公式可以进行对F的更新:其中为利用回溯搜索算法计算所得步长;为Fu向量第k个分量更新后的值;为Fu向量第k个分量更新前的值;为更新Fu时所用的梯度,具体的:其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;步骤S303:F更新完成后,假设F不变,根据如下公式可以进行对η的更新:其中αη为利用回溯搜索算法计算所得步长;为η矩阵中第i行第j列更新后的值;为η矩阵中第i行第j列更新前的值;为更新η时所用的梯度,具体的:其中E表示时序文本网络中所有边的集合;Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)与t(v)分别表示点u与点v的时间戳;步骤S304:计算和的时间复杂度分别为O(N)和O(N2),为降低时间复杂度、提高可计算性,采取如下近似:其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合;N(u)表示inN(u)和outN(u)的并集,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)、t(v)、t(v’)分别表示点u、点v与点v’的时间戳;计算和的时间复杂度分别为O(|N(u)|)、O(|E|),总时间复杂度为O(|E|),中|N(u)|表示集合N(u)包含的节点的个数;|E|表示网络中边的条数。上述技术方案中,所述步骤S4包括:步骤S401:从数据文件中读取数据,并根据步骤S1构建时序文本网络;步骤S402:初始化用户与社区间的联系强度矩阵F;基于向网络中的导率模型,如果节点u的入邻居inN(u)有比所有点v∈outN(u)的入邻居inN(v)有更小的导率,则该入邻居inN(u)在邻近是最小的;对于属于一个在邻近最小的邻域k内的节点u',初始化节点u'与一个社区k之间的联系强度Fu'k=1,否则令Fu'k=0;为了初始化η,设置主对角线上的项为0.9,其他项为0.1;步骤S403:每轮次根据公式更新F与η,首先针对每个节点u,根据梯度公式更新节点u与所有社区之间的联系强度向量Fu,梯度公式如下:其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;F更新完成后,根本文档来自技高网...
基于时序文本网络的社区检测与用户关系预测方法

【技术保护点】
一种基于时序文本网络的社区检测与用户关系预测方法,其特征在于,包括如下步骤:步骤S1:基于原始数据构建时序文本网络;步骤S2:针对时序文本网络,构建基于关系图模型的生成模型;步骤S3:利用梯度下降法构建生成模型的推断过程;步骤S4:根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系,其中社区指表现出较高相关性的点的集合,社区间的关系指的是社区之间的相似度;步骤S5:根据提取出的社区信息,进行网络节点间的连接预测。

【技术特征摘要】
1.一种基于时序文本网络的社区检测与用户关系预测方法,其特征在于,包括如下步骤:步骤S1:基于原始数据构建时序文本网络;步骤S2:针对时序文本网络,构建基于关系图模型的生成模型;步骤S3:利用梯度下降法构建生成模型的推断过程;步骤S4:根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系,其中社区指表现出较高相关性的点的集合,社区间的关系指的是社区之间的相似度;步骤S5:根据提取出的社区信息,进行网络节点间的连接预测。2.根据权利要求1所述的基于时序文本网络的社区检测与用户关系预测方法,其特征在于,所述步骤S1包括:步骤S101:将顶点集V设为空集,将边集E设为空集;步骤S102:将原始数据集中的每一篇文章加到顶点集V中;步骤S103:顶点集V中的每一篇文章对应一个标签T,该标签是指每一篇文章的发表时间;步骤S104:将原始数据集中文章间的链接关系加到边集E中;步骤S105:(V,E;T)的集合构成图G,图G为时序文本网络。3.根据权利要求2所述的基于时序文本网络的社区检测与用户关系预测方法,其特征在于,所述步骤S2包括:步骤S201:定义节点u与节点v之间通过社区i、j产生连接的概率:p(u,v,i,j)=(1-exp(-FuiηijFvj))δ(u→v),其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;步骤S202:定义节点u与节点v之间通过任意两个社区产生连接的概率为:其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;表示节点u与所有社区的连接强度的向量的转置;Fv表示节点v与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;步骤S203:针对时序文本网络,根据步骤S202定义的公式,生成时序文本网络GP:GP=(V∪Vω,E∪Eωd;T∪Tω)其中,V、E、T分别是时序文本网络中的节点集合、边集合以及时间戳集合;Vω代表一个单词;存在于Eωd的边(ωi,dj)代表单词i存在于文章j中;Tω代表单词的时间戳,被设置成0;对于该网络中任意两点,根据S202所定义的概率,预测两点间是否有边存在。4.根据权利要求3所述的基于时序文本网络的社区检测与用户关系预测方法,其特征在于,所述步骤S3包括:步骤S301:利用块坐标梯度下降法,对于对每个节点u,假设对不变且η不变,首先更新Fu,即l(Fu)为针对Fu的对数似然函数,具体地:其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵,为对应的转置矩阵;步骤S302:利用梯度下降法,根据如下公式可以进行对F的更新:其中为利用回溯搜索算法计算所得步长;为Fu向量第k个分量更新后的值;为Fu向量第k个分量更新前的值;为更新Fu时所用的梯度,具体的:其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;步骤S303:F更新完成后,假设F不变,根据如下公式可以进行对η的更新:其中αη为利用回溯搜索算法计算所得步长;为η矩阵中第i行第j列更新后的值;为η矩阵中第i行第j列更新前的值;为更新η时所用的梯度,具体的:其中E表示时序文本网络中所有边的集合;Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)与t(v)分别表示点u与点v的时间戳;步骤S304:计算和的时间复杂度分别为O(N)和O(N2),为降低时间复杂度、提高可计算性,采...

【专利技术属性】
技术研发人员:贾雨葶黄颖吴昊李杰锋王睿杰苏靖超刘萌欣洪逸宁王嘉璐傅洛伊王新兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1