一种基于卷积神经网络的用户属性推断方法和装置制造方法及图纸

技术编号:18862917 阅读:33 留言:0更新日期:2018-09-05 15:12
本发明专利技术涉及一种基于卷积神经网络的用户属性推断方法和装置。该方法根据用户节点的属性和好友关系,建立自中心网络;然后采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。针对好友关系无法直接获取或获取难度较大的社交网络,采用神经网络仅利用用户的属性信息对缺失的属性进行分类预测。本发明专利技术可以很好的避免人为定义相似度函数的局限性,而且通过卷积核的卷积操作能够更好的表现出不同属性间以及不同的属性维度间的关系,从而能够高效、准确地进行用户缺失属性推断。

A user attribute inference method and device based on convolution neural network

The invention relates to a user attribute inference method and device based on convolution neural network. The method establishes a self-centered network according to the attributes and friends of the user nodes, then extracts the attribute information of the user nodes from the central network and the hidden information contained in the friend relationship by using the convolutional neural network, and infers the missing attributes of the user from the hidden information. Aiming at the social network which is difficult to acquire directly or acquire directly by friends, neural network is used to classify and predict the missing attributes only by using user's attributes information. The invention can avoid the limitation of artificially defining similarity function, and the convolution operation of convolution kernel can better show the relationship between different attributes and different attribute dimensions, so as to efficiently and accurately infer the missing attributes of users.

【技术实现步骤摘要】
一种基于卷积神经网络的用户属性推断方法和装置
本专利技术属于社交网络中用户缺失属性推断
,特别是多值属性的推断,具体涉及一种基于卷积神经网络的用户属性推断方法和装置,具有较高的准确度。
技术介绍
随着互联网技术的发展,在线社交产品,如微博、知乎和Facebook等成为用户的日常生活的必需品。用户在使用这些产品的同时,产生了大量的信息,包括用户的属性信息、发文内容和好友关系,这些信息为企业、科研人员等准确刻画用户画像提供了数据支持。与此同时为了保护用户的隐私,在线社交产品为用户提供了细粒度的隐私设置,这就导致了用户的属性信息是很难直接获取的。据相关资料统计,用户的属性信息缺失率高达70%,大量信息的缺失成为准确刻画用户画像所面临的最大问题,因此,用户属性推断技术在工业界和科研界引起了广泛的关注。传统的方法可以分为两大类——基于分类的方法和基于标签传播的方法。前者的理论基础是你属于什么,通常是通过计算标记节点与其邻居节点的相似性来预测未知属性的。其中相似度的计算主要取决于具体所采用的方法,经典的分类算法有SVM、贝叶斯等。此外一些学者提出了更加符合实际情况的相似性计算方法,如N.Z.gong于2016年发表的《YouareWhoYouKnowandHowYouBehave:AttributeInferenceAttacksviaUsers’SocialFriendsandBehaviors》文章中就提出了一种更好的计算相似性的方法,取得了很好的效果。但是一般来说,SVM、贝叶斯等模型在预测性别,年龄等属性上有良好表现,但对预测职业,兴趣等问题上的表现差强人意。而基于标签传播的方法是利用了社交网络的同质性,即两个具有好友关系的用户具有相似属性的可能性更大。基于这一理论基础,属性值就可以通过边从已知属性信息的节点传播给未知属性信息的节点,从而达到准确预测属性值的目的。如2010年MingzhenMo提出的《ExploitofOnlineSocialNetworkswithSemi-SupervisedLearning》一文中就是用标记传播的方法来预测用户的未知属性的,取得了很好的效果。但是,在实际的操作中,这一方法需要大量的时间和空间开销来计算由社交网络所构成的图的邻接矩阵。根据以上介绍可知,目前国内外对用户缺失属性填充有很多研究,主要分为基于分类和基于标记传播的。基于分类的方法的局限性在于相似度的计算需要全面精确,并且分类模型精度要高,数据特征的构建要全面,但目前的方法中虽然机器学习模型的精度很高,但大部分是针对于二分类问题,且在社交网络中面临着无法获取多维属性构建用户的全面的特征向量等问题,从而导致预测效果较差,尤其是多值属性的预测。而基于标记传播的属性预测算法则需要花费大量的时间去计算图的邻接矩阵,而且算法本身对标记节点的好友的重要程度一视同仁,这本身是不符合社交网络的特性的,所以在真实数据上的效果也是差强人意的。此外,这两类方法在预测标记节点未知属性的时候,要根据特定的属性进行模型的训练,比如预测性别属性的时候,要根据用户的属性信息建立一个对应的模型,当预测职业属性时,之前训练的模型则不能直接使用,还需要训练新的模型才能达到较好的预测效果。
技术实现思路
本专利技术所要解决的技术问题是提供高效、准确的用户缺失属性推断技术,用以更好的刻画用户画像。本专利技术采用的技术方案如下:一种基于卷积神经网络的用户属性推断方法,包括以下步骤:1)根据用户节点的属性和好友关系,建立自中心网络;2)采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。进一步地,所述自中心网络采用五元组G′={V′,′,′,′,}来表示,其中V′包含自中心网络中节点信息,集合E′包含自中心网络中所有节点间的链接关系,集合A′和′分别表示节点的属性信息和行为信息,矩阵L∈V′×N包含自中心节点和它的好友的属性信息和行为信息,是属性和行为数据维度的总和。进一步地,步骤1)首先对用户在网络上的属性信息进行过滤,然后再建立所述自中心网络;所述过滤包括:a)过滤掉除年龄之外其他属性的所有非汉字的词组。b)过滤掉属性信息缺失超过设定的阈值的节点。进一步地,所述卷积神经网络包括输入层、投影层、卷积层、池化层、全连接层和输出层,所述投影层将用户的属性信息和行为信息转化为向量。进一步地,所述投影层将用户的属性信息和行为信息转化为向量,对属于同一职业或专业的词语采用以下规则:i.创建hash表,以专业或职业的首字作为关键字,将所有以该字为首字的属性组成集合作为value;然后根据jara-winkler距离计算其他属性值与专业和职业词典中词语的相似性,并将相似度高的属性加入到集合value;ii.针对那些不在集合value中出现的属性值,运用word2vec训练出词向量,通过计算词向量间的距离,将相似性高的向量通过KNN算法聚合在一起,并与词典中的词语通过ID号进行关联,从而得到数字化向量。进一步地,所述卷积层采用训练好的权重矩阵和偏置与经过投影层后得到的特征矩阵做映射,并采用Relu作为激活函数;所述池化层采用最大值池化来保留局部特征中最重要的信息;所述输出层采用softmax分类器利用权重矩阵和偏置的值为属性可能的取值进行打分,得分最高的属性值即为标记用户的缺失属性值。进一步地,针对好友关系无法直接获取或获取难度较大的社交网络,采用神经网络仅利用用户的属性信息对缺失的属性进行分类预测。进一步地,所述神经网络包括输入层、投影层、隐藏层和输出层;所述投影层将用户的属性信息和行为信息转化为向量;所述隐藏层是两个全连接层,第一个隐藏层含有n*n个神经元,n是用户的属性和行为数据的维度之和,第二个隐藏层丢掉一部分神经元以防止过拟合;所述输出层采用softmax分类器利用权重矩阵和偏置的值为属性可能的取值进行打分,得分最高的属性值即为标记用户的缺失属性值。一种基于卷积神经网络的用户属性推断装置,其包括:自中心网络构建模块,负责根据用户节点的属性和好友关系,建立自中心网络;用户属性推断模块,负责采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。进一步地,针对好友关系无法直接获取或获取难度较大的社交网络,所述用户属性推断模块采用神经网络仅利用用户的属性信息对缺失的属性进行分类预测。本专利技术所提出的基于卷积神经网络的用户属性推断算法与现有技术中的基于分类的方法是类似的,同样的将属性推断问题看成了一个分类问题。最大的不同之处是传统的分类方法会有定义一个相似度计算的公式,根据该公式计算出节点间的相似度并对未知属性可能的取值进行打分,从而选取得分高的属性值作为标记节点的未知属性值。但本专利技术基于卷积网络的属性预测算法——UPE则是根据权重矩阵和偏置值计算出标记节点未知属性的可能值的得分,具体实现方法是通过大小不一的卷积核自动的抓取不同属性维度间潜在关系,然后根据这些关系和反向传播算法计算出属性的权重矩阵和偏置,再经过一个线性计算,就得出了未知属性每个可能取值的分数。通过权重矩阵和偏置去衡量相似度的方法可以很好的避免人为定义相似度函数的局限本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的用户属性推断方法,其特征在于,包括以下步骤:1)根据用户节点的属性和好友关系,建立自中心网络;2)采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。

【技术特征摘要】
1.一种基于卷积神经网络的用户属性推断方法,其特征在于,包括以下步骤:1)根据用户节点的属性和好友关系,建立自中心网络;2)采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。2.根据权利要求1所述的方法,其特征在于,所述自中心网络采用五元组G′={V′,′,′,′,}来表示,其中V′包含自中心网络中节点信息,集合E′包含自中心网络中所有节点间的链接关系,集合A′和′分别表示节点的属性信息和行为信息,矩阵L∈V′×N包含自中心节点和它的好友的属性信息和行为信息,是属性和行为数据维度的总和。3.根据权利要求1所述的方法,其特征在于,步骤1)首先对用户在网络上的属性信息进行过滤,然后再建立所述自中心网络;所述过滤包括:a)过滤掉除年龄之外其他属性的所有非汉字的词组。b)过滤掉属性信息缺失超过设定的阈值的节点。4.根据权利要求1所述的方法,其特征在于,所述卷积神经网络包括输入层、投影层、卷积层、池化层、全连接层和输出层,所述投影层将用户的属性信息和行为信息转化为向量。5.根据权利要求4所述的方法,其特征在于,所述投影层将用户的属性信息和行为信息转化为向量,对属于同一职业或专业的词语采用以下规则:i.创建hash表,以专业或职业的首字作为关键字,将所有以该字为首字的属性组成集合作为value;然后根据jara-winkler距离计算其他属性值与专业和职业词典中词语的相似性,并将相似度高的属性加入到集合value;ii.针对那些不在集合value中出现的属性值,运用word2vec训练出词向量,通过计算词向量间的距离,将相似...

【专利技术属性】
技术研发人员:曹亚男李晓雪尚燕敏刘燕兵谭建龙郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1