当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于社交网络用户人格的网络对齐方法及系统技术方案

技术编号:35409789 阅读:10 留言:0更新日期:2022-11-03 11:05
本发明专利技术提供一种基于社交网络用户人格的网络对齐方法及系统,方法包括:采集用户发布内容及多平台网络结构,处理得到统一长度用户文本特征向量及多平台网络结构图;将多平台用户文本放入LIWC中,得到用户大五人格得分;拼接用户文本特征向量得到文本特征矩阵,以图卷积网络处理得到每个用户单平台表示向量;拼接两个用户单平台表示向量,以全连接层获取二分类预测结果;根据网络对齐二分类预测结果进行判断,将各平台表示向量放入全连接层,语言探索及字词计数LIWC得到人格真实值,用户平台表示通过全连接层以获得用户大五人格向量,进行人格预测并辅助网络对齐。本发明专利技术解决了信息稳定性差导致对齐效果易受有干扰以及网络对齐精度较低的技术问题。精度较低的技术问题。精度较低的技术问题。

【技术实现步骤摘要】
一种基于社交网络用户人格的网络对齐方法及系统


[0001]本专利技术属于社交网络数据挖掘
,涉及基于社交网络用户人格的网络对齐方法。

技术介绍

[0002]每个社交平台都可以用一个网络来表示,它可以自然地捕捉数据域和信息系统中实体之间的关系。根据网络研究中心的报告,约73%的网民同时使用多个社交媒体平台。因此,大量研究者研究跨网络任务,如跨领域推荐,以及个性化内容推荐等。网络对齐作为许多跨网络任务的前提条件步骤,近年来变得越来越重要。社交网络对齐又称身份对齐。身份对齐通过整合多个具有不同结构和语义的网络,为节点的跨网络分析提供了更加直观和全面的视角。
[0003]身份对齐就是确定多网络中的节点对(组)是否属于同一个人。例如,公开号为 CN110347932A的现有专利技术专利文献《一种基于深度学习的跨网络用户对齐方法》公开了一种基于深度学习的网络对齐方法,所述方法通过将参数共享的卷积网络和反卷积网络构成深度学习网络,通过对网络中的已知对齐节点对的联合表示,并对隐式特征进行学习。该现有文献中披露的技术方案中的社交网络对齐的方法没有考虑到用户人格的影响因素,制约了用户对齐的精度。公开号为CN111814066A的现有专利技术专利文献《基于启发式算法的动态社交用户对齐方法及系统》方法包括:跨网络新增节点权重自适应学习方法,在单网络环境下引入注意力机制获取新节点在单网络中的局部影响权重,在多网络环境下使用跨网络特有的锚节点作为监督信息,启发式学习新节点在用户对齐任务驱动下的局部影响权重;网络局部动态更新,融合上述两种权重,选择需要更新的网络范围,在保持二阶邻居相似度的前提下进行网络局部动态更新,完成用户对齐任务驱动下的多网络用户表示,进而完成动态跨网络用户对齐。该现有文献披露的技术方案采用用户的社交关系以及用户之间关注度等属性信息,以及根据前述关系数据集节点间关注度产生的社交逻辑位置数据等生成内容进行对齐,该现有技术采用的信息稳定性较差,导致对齐效果易受到噪声的影响。
[0004]综上,现有技术存在信息稳定性差导致对齐效果易受有干扰以及网络对齐精度较低的技术问题。

技术实现思路

[0005]本专利技术所要解决的技术问题在于如何解决现有技术中的信息稳定性差导致对齐效果易受有干扰以及网络对齐精度较低的技术问题。
[0006]本专利技术是采用以下技术方案解决上述技术问题的:一种基于社交网络用户人格的网络对齐方法包括:
[0007]S1、采集获取多平台用户发布内容及多平台网络结构,预处理多平台用户发布内容中的多平台用户文本,以得到统一长度用户文本特征向量将多平台网络结构处理为不少于2个的平台网络结构图;
[0008]S2、在原数据集的基础上,从预设用户身份信息平台获取跨平台用户身份间链接S,将多平台用户文本放入语言探索及字词计数LIWC中,据以处理得到用户u的大五人格得分
[0009]S3、将每个平台用户的统一长度用户文本特征向量按用户ID拼接为文本特征矩阵,将不同的平台网络结构图与文本特征矩阵输入预置图卷积网络,据以得到每个用户单平台表示向量
[0010]S4、基于跨平台用户身份间链接S,拼接步骤S3中得到的两个用户单平台表示向量以作为全连接层输入数据,通过全连接层处理得到网络对齐二分类模型,据以获取二分类预测结果;
[0011]S5、将用户单平台表示向量作为输入,根据二分类预测结果判断是否进行向量拼接处理,若网络对齐二分类结果判断是同一人,判定两边的表示向量代表同一个人的信息,则将各平台表示向量进行均值处理后放入全连接层,若网络对齐二分类结果判断不是同一人,则将各平台的表示向量分别放入全连接层,经由语言探索及字词计数LIWC 对多平台用户文本进行处理分析,据以得到用户大五人格得分,以作为人格预测任务的监督信息,通过全连接层处理监督信息,以获得用户的大五人格向量,据以获取用户人格预测结果并辅助网络对齐。
[0012]本专利技术选择了更加稳定的人格信息。人格具有跨时间的连续性和跨情境的一致性,避免了现有技术通过用户的属性及其生成内容进行对齐导致网络对齐过程受到噪声影响的问题。人格信息对身份对齐的辅助效果在于,同一个人在不同平台上的人格理论上一致性较高,本专利技术中的人格预测和身份对齐共用一组信息,产生表示向量后,表示向量会趋近,更有利于身份对齐任务。
[0013]在更具体的技术方案中,步骤S1包括:
[0014]S11、从社交平台官网采集获取多平台用户发布内容及多平台网络结构;
[0015]S12、删除多平台用户文本中的非字母字符,并将所有单词转换成小写,以得到用户文本预处理数据;
[0016]S13、使用doc2vec对每一个平台用户的用户文本预处理数据生成统一长度用户文本特征向量
[0017]S14、将收集到的各平台网络结构表示为平台网络结构图G
n
=(V
n
,E
n
),其中,V
n
为用户,E
n
为用户间的链接。
[0018]在更具体的技术方案中,步骤S2包括:
[0019]S21、通过Google+获得跨平台用户身份间链接S,以作为身份对齐任务的监督标签;
[0020]S22、利用预置LIWC软件分析多平台用户文本,以得到每个用户的五维人格表示向量
[0021]S23、采用下述逻辑标准化处理五维人格表示向量,以得到人格真实值五维标签:
[0022][0023]其中
[0024]S24、根据人格真实值五维标签得到每个用户的大五人格向量
[0025]本专利技术利用LIWC软件对文本内容的词语类别(尤其是心理学类词语)进行量化分析,以反映不同情绪、思维方式、社会关注甚至是话语成分的词汇的百分比,经过分析之后会得到给定文本的处理向量。本专利技术对用户的五种人格进行处理以得每个用户的大五人格向量本专利技术通过采用用户人格表示来进行网络对齐,降低了噪声干扰,提升了网络对齐的精度。
[0026]在更具体的技术方案中,步骤S3包括:
[0027]S31、将每个平台的统一长度用户文本特征向量堆叠为文本特征矩阵P,以作为用户属性信息矩阵;
[0028]S32、将单网络图G和属性信息P分别输入预置图卷及预置神经网络,以利用下述逻辑进行卷积运算,以得到卷积处理结果:
[0029][0030]S33、根据卷积处理结果,由卷积层最后一层的H
(l)
获取用户的单平台O
n
信息的用户单平台表示向量
[0031]本专利技术中的每一个参与社交网络的用户都会在社交网络上创建一个身份,其中包含属性信息(如性别,生日,学历等),个人生成内容(如文本,图片等)和结构信息(社交联系)。通过这些信息将不同社交网络上的用户身份关系起来称之为身份对齐。不失一般性的,后面以两个平台上的身份对齐为例,也很容易扩展到多平台,提升了对齐效果以及算法的适用性。
[0032]在更具体的技术方案中,步骤S4包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于社交网络用户人格的网络对齐方法,其特征在于,所述方法包括:S1、采集获取多平台用户发布内容及多平台网络结构,预处理所述多平台用户发布内容中的多平台用户文本,以得到统一长度用户文本特征向量将所述多平台网络结构处理为不少于2个的平台网络结构图;S2、在原数据集的基础上,从预设用户身份信息平台获取跨平台用户身份间链接S,将所述多平台用户文本放入语言探索及字词计数LIWC中,据以处理得到用户u的大五人格得分S3、将每个所述平台用户的所述统一长度用户文本特征向量按用户ID拼接为文本特征矩阵,将不同的平台网络结构图与所述文本特征矩阵输入预置图卷积网络,据以得到每个用户单平台表示向量S4、基于所述跨平台用户身份间链接S,拼接所述步骤S3中得到的两个所述用户单平台表示向量以作为全连接层输入数据,通过全连接层处理得到网络对齐二分类模型,据以获取二分类预测结果;S5、将所述用户各平台表示向量作为输入,根据所述二分类预测结果判断是否进行向量拼接处理,若所述网络对齐二分类结果判断是同一人,判定两边的表示向量代表同一个人的信息,则将各平台表示向量进行均值处理后放入全连接层,若所述网络对齐二分类结果判断不是同一人,则将各平台的表示向量分别放入所述全连接层,经由语言探索及字词计数LIWC对多平台用户文本进行处理分析,据以得到用户大五人格得分,以作为人格预测任务的监督信息,通过全连接层处理所述监督信息,以获得用户的大五人格向量,据以获取用户人格预测结果并辅助网络对齐。2.根据权利要求1所述的一种基于社交网络用户人格的网络对齐方法,其特征在于,所述步骤S1包括:S11、从社交平台官网采集获取所述多平台用户发布内容及所述多平台网络结构;S12、删除所述多平台用户文本中的非字母字符,并将所有单词转换成小写,以得到用户文本预处理数据;S13、使用doc2vec对每一个平台用户的所述用户文本预处理数据生成所述统一长度用户文本特征向量S14、将收集到的各平台网络结构表示为所述平台网络结构图G
n
=(V
n
,E
n
),其中,V
n
为用户,E
n
为用户间的链接。3.根据权利要求1所述的一种基于社交网络用户人格的网络对齐方法,其特征在于,所述步骤S2包括:S21、通过Google+获得所述跨平台用户身份间链接S,以作为身份对齐任务的监督标签;S22、利用预置LIWC软件分析所述多平台用户文本,以得到每个用户的五维人格表示向量S23、采用下述逻辑标准化处理所述五维人格表示向量,以得到人格真实值五维标签:
其中S24、根据所述人格真实值五维标签得到每个用户的所述大五人格向量4.根据权利要求1所述的一种基于社交网络用户人格的网络对齐方法,其特征在于,所述步骤S3包括:S31、将每个平台的所述统一长度用户文本特征向量堆叠为文本特征矩阵P,以作为用户属性信息矩阵;S32、将单网络图G和属性信息P分别输入预置图卷及预置神经网络,以利用下述逻辑进行卷积运算,以得到卷积处理结果:S33、根据所述卷积处理结果,由卷积层最后一层的H
(l)
获取用户的单平台O
n
信息的所述用户单平台表示向量5.根据权利要求1所述的一种基于社交网络用户人格的网络对齐方法,其特征在于,所述步骤S4包括:S41、根据所述所述跨平台用户身份间链接S获取用户对,选取其中一部分所述用户对作为训练集,另一部分作为测试集;S42、以下述逻辑拼接每个平台的所述所述统一长度用户文本特征向量据以获取用户的最终表示:S43、将所述最终表示p
i
作为所述全连接层的输入数据,通过softmax以下述逻辑回归预测用户对是否是同一人的概率,据以实现身份对齐的二分类任...

【专利技术属性】
技术研发人员:颜登程蔡锐仲红张以文
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1