基于改进人工免疫系统的链接预测方法及存储介质技术方案

技术编号:20868251 阅读:44 留言:0更新日期:2019-04-17 09:41
一种基于改进人工免疫系统的链接预测方法及存储介质,所述方法首先基于用户网络结构信息和用户发布内容信息的时间序列,构建用户动态关系特征和用户动态发布内容特征;通过对链接特征进行相关性分析,根据特征的重要性赋予其权重以得到带有权重的训练集合;最后,通过重新定义亲和力度量标准、多样化的亲和力阈值以及标准正态分布变异因子,构建基于改进的人工免疫算法的链接预测模型。本发明专利技术不仅能够较好地适用于链接特征的多样性,还能够使系统保持较高的准确性,实现了链接存在性及方向性的预测。

【技术实现步骤摘要】
基于改进人工免疫系统的链接预测方法及存储介质
本专利技术涉及网络链接预测
,特别涉及一种基于改进的人工免疫系统的链接预测方法。
技术介绍
社会网络可以看作是一种以节点表示个体或其他实体,以边来表示节点间的交互或关系的图结构。基于这种关系结构,大量个体围绕着某个事件进行交互并彼此影响,其中,个体发表文本信息的可见性和真实关系的不易见性,使得利用动态交互网络预测网络结构成为当前的研究热点。作为关系结构分析中最为基础的问题,链接预测具有广泛的实际应用价值,其不但能够分析社会网络中的缺失数据,而且可被应用到其他领域,如分子生物学、犯罪调查、信息检索和推荐系统。此外,对链接预测方法的研究还有助于深入理解社会网络的演化机理。综上所述,除广阔的应用前景外,链接预测还具有重要的理论意义。近年来,研究者提出了很多解决链接预测的相关算法,这些算法一般是基于监督学习的链接预测、基于概率模型的链接预测、基于节点相似度的链接预测等。基于节点相似度的链接预测。根据预先设定的相似度评分函数对节点间的相似度进行打分,然后根据打分值将所有没被发现的链接进行排序,相似度分数越高则两节点间存在链接的可能性越大。该方本文档来自技高网...

【技术保护点】
1.一种基于改进人工免疫系统的链接预测方法,包括如下步骤:特征表示步骤S110:通过社交媒体获取用户的个人特征信息、基于时间片流的用户关系特征信息,和用户发表状态信息,利用上述信息解析得到用户概要特征,用户动态关系特征和用户动态发表内容特征;特征参数学习步骤S120:针对特征表示步骤中得到的三类特征,分析各个特征与链接关系的相关性,删除相对冗余的特征,计算并分配剩余特征的权重,所述链接关系位于不同用户之间,包括三种情况,即用户是否关注另一用户,用户是否被另一用户所关注,以及两个用户之间不存在任何关注关系;链接预测步骤S130:利用用户概要特征、用户动态关系特征和用户动态发布内容特征,设计面向链...

【技术特征摘要】
1.一种基于改进人工免疫系统的链接预测方法,包括如下步骤:特征表示步骤S110:通过社交媒体获取用户的个人特征信息、基于时间片流的用户关系特征信息,和用户发表状态信息,利用上述信息解析得到用户概要特征,用户动态关系特征和用户动态发表内容特征;特征参数学习步骤S120:针对特征表示步骤中得到的三类特征,分析各个特征与链接关系的相关性,删除相对冗余的特征,计算并分配剩余特征的权重,所述链接关系位于不同用户之间,包括三种情况,即用户是否关注另一用户,用户是否被另一用户所关注,以及两个用户之间不存在任何关注关系;链接预测步骤S130:利用用户概要特征、用户动态关系特征和用户动态发布内容特征,设计面向链接预测的人工免疫系统构成表示;计算每一个抗体的亲和力阈值,对约简后的抗体集合中的每一个抗体进行克隆与变异,并基于构建的人工免疫系统模型进行链接预测。2.根据权利要求1所述的基于改进人工免疫系统的链接预测方法,其特征在于:所述社交媒体包括新浪微博、FACEBOOK。3.根据权利要求1所述的基于改进人工免疫系统的链接预测方法,其特征在于:在特征表示步骤中,集合表示链接特征,并结合函数描述,给出了链接特征的形式化表示。4.根据权利要求1所述的基于改进人工免疫系统的链接预测方法,其特征在于:在特征表示步骤S110中,用户概要特征包括:互粉数、粉丝数、关注数、性别、省份、城市、账户创建时间和账户认证类型,可选的,具有离散特征的性别、省份、城市、账户创建时间和账户认证类型特征在原始数据集中以不同的数值表示其所属类别;用户动态关系特征包括:利用改进的Salton度量标准、改进的Jaccard度量标准和改进的PreferentialAttachment度量标准,衡量表示用户动态关系特征;其中所述改进的Salton度量标准为:在时间片流[0,tn]上,用户u和用户v的Salton值的计算公式如下:其中,所述的β∈[0,1],βn-i表示时间片ti的权重;n表示时间片流[0,tn]上包含的时间片总数;Sa(u,v,ti)表示用户u和用户v在第i个时间片ti上的Salton值,其计算公式如下:其中,所述的Γin(u,ti)和Γin(v,ti)分别为用户u和用户v在时间片ti上的入链接用户集合;Γout(u,ti)和Γout(v,ti)分别为用户u和用户v在时间片ti上的出链接用户集合;入链接和出链接由用户间的关注关系决定;|Γ(x)|表示集合Γ(x)的元素数量,din(u,ti)和din(v,ti)分别为用户u和用户v在时间片ti上的入度;dout(u,ti)和dout(v,ti)分别为用户u和用户v在时间片ti上的出度;所述改进的Jaccard度量标准为:在时间片流[0,tn]上,用户u和用户v的Jaccard值的计算公式如下:其中,所述的Ja(u,v,ti)表示用户u和用户v在第i个时间片ti上的Jaccard值,其计算公式如下:所述改进的PreferentialAttachment度量标准为在时间片流[0,tn]上,用户u和用户v的PreferentialAttachment值的计算公式如下:其中,所述的Pa(u,v,ti)表示用户u和用户v在第i个时间片ti上的PreferentialAttachment值,其计算公式如下:所述用户动态发布内容特征为:统计单一时间片上正向情感统计单一时间片上的正向情感词数和负向情感词数,计算单一时间片上的用户心情指数,并最终计算时间流上的用户心情指数,具体包括在时间片流[0,tn]上,用户u的动态发布内容特征计算公式如下:其中,所述的Em(u,ti)表示用户u在时间片ti上的心情指数,即某个用户在时间片ti上发布的微博文本中所表达出的情感,其计算公式如下:Em(u,ti)=pn(u,ti)/nn(u,ti)其中,所述的pn(u,ti)和nn(u,ti)分别表示用户u在时间片ti上发表的社交文本集合中使用的包含在中英文情感分析用词语集中的正向情感词数和负向情感词数。5.根据权利要求1所述的基于改进人工免疫系统的链接预测方法,其特征在于:特征参数学习步骤S120具体包括:相关性分析步骤S121:应用肯德尔系数分析各个特征与链接类别之间的相关性,其计算公式如下:其中,所述的τi,L表示随机变量特征i,即各个特征i与链接类别L之间的相关性,τi,L的取值范围在-1到1之间,当τi,L为1时,表示随机变量特征i与链接类别L拥有一致的等级相关性,当τi,L为-1时,表示随机变量特征i与链接类别L拥有完全相反的等级相关性,当τi,L为0时,表示随机变量特征i与链接类别L是相互独立的,K表示参与相关性分析的随机变量数量;n表示随机变量特征i与链接类别L的维数;vil和vLl分别表示随机变量特征i和链接类别L第l个实例的值;njk表示第j个随机变量中第k个元素拥有重复元素的数量;所有特征平均相关性计算步骤S122:基于步骤S121中得到的相关性分析结果,计算所有特征的平均相关性,其计算公式如下:其中,所述的avgτ为所有特征的平均相关性,r表示特征维数;冗余特征判断删除步骤S123:判断特征i与链接类别之间的相关性τi,L是否达到平均水平,若未达到,即|τi,L|<avgτ...

【专利技术属性】
技术研发人员:王萌萌张峰葛建军
申请(专利权)人:中国电子科技集团公司信息科学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1