The invention relates to a user attribute inference method and device based on convolution neural network. The method establishes a self-centered network according to the attributes and friends of the user nodes, then extracts the attribute information of the user nodes from the central network and the hidden information contained in the friend relationship by using the convolutional neural network, and infers the missing attributes of the user from the hidden information. Aiming at the social network which is difficult to acquire directly or acquire directly by friends, neural network is used to classify and predict the missing attributes only by using user's attributes information. The invention can avoid the limitation of artificially defining similarity function, and the convolution operation of convolution kernel can better show the relationship between different attributes and different attribute dimensions, so as to efficiently and accurately infer the missing attributes of users.
【技术实现步骤摘要】
一种基于卷积神经网络的用户属性推断方法和装置
本专利技术属于社交网络中用户缺失属性推断
,特别是多值属性的推断,具体涉及一种基于卷积神经网络的用户属性推断方法和装置,具有较高的准确度。
技术介绍
随着互联网技术的发展,在线社交产品,如微博、知乎和Facebook等成为用户的日常生活的必需品。用户在使用这些产品的同时,产生了大量的信息,包括用户的属性信息、发文内容和好友关系,这些信息为企业、科研人员等准确刻画用户画像提供了数据支持。与此同时为了保护用户的隐私,在线社交产品为用户提供了细粒度的隐私设置,这就导致了用户的属性信息是很难直接获取的。据相关资料统计,用户的属性信息缺失率高达70%,大量信息的缺失成为准确刻画用户画像所面临的最大问题,因此,用户属性推断技术在工业界和科研界引起了广泛的关注。传统的方法可以分为两大类——基于分类的方法和基于标签传播的方法。前者的理论基础是你属于什么,通常是通过计算标记节点与其邻居节点的相似性来预测未知属性的。其中相似度的计算主要取决于具体所采用的方法,经典的分类算法有SVM、贝叶斯等。此外一些学者提出了更加符合实际情况的相似性计算方法,如N.Z.gong于2016年发表的《YouareWhoYouKnowandHowYouBehave:AttributeInferenceAttacksviaUsers’SocialFriendsandBehaviors》文章中就提出了一种更好的计算相似性的方法,取得了很好的效果。但是一般来说,SVM、贝叶斯等模型在预测性别,年龄等属性上有良好表现,但对预测职业,兴趣等问题上的表现差强 ...
【技术保护点】
1.一种基于卷积神经网络的用户属性推断方法,其特征在于,包括以下步骤:1)根据用户节点的属性和好友关系,建立自中心网络;2)采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。
【技术特征摘要】
1.一种基于卷积神经网络的用户属性推断方法,其特征在于,包括以下步骤:1)根据用户节点的属性和好友关系,建立自中心网络;2)采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。2.根据权利要求1所述的方法,其特征在于,所述自中心网络采用五元组G′={V′,′,′,′,}来表示,其中V′包含自中心网络中节点信息,集合E′包含自中心网络中所有节点间的链接关系,集合A′和′分别表示节点的属性信息和行为信息,矩阵L∈V′×N包含自中心节点和它的好友的属性信息和行为信息,是属性和行为数据维度的总和。3.根据权利要求1所述的方法,其特征在于,步骤1)首先对用户在网络上的属性信息进行过滤,然后再建立所述自中心网络;所述过滤包括:a)过滤掉除年龄之外其他属性的所有非汉字的词组。b)过滤掉属性信息缺失超过设定的阈值的节点。4.根据权利要求1所述的方法,其特征在于,所述卷积神经网络包括输入层、投影层、卷积层、池化层、全连接层和输出层,所述投影层将用户的属性信息和行为信息转化为向量。5.根据权利要求4所述的方法,其特征在于,所述投影层将用户的属性信息和行为信息转化为向量,对属于同一职业或专业的词语采用以下规则:i.创建hash表,以专业或职业的首字作为关键字,将所有以该字为首字的属性组成集合作为value;然后根据jara-winkler距离计算其他属性值与专业和职业词典中词语的相似性,并将相似度高的属性加入到集合value;ii.针对那些不在集合value中出现的属性值,运用word2vec训练出词向量,通过计算词向量间的距离,将相似...
【专利技术属性】
技术研发人员:曹亚男,李晓雪,尚燕敏,刘燕兵,谭建龙,郭莉,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。