This application discloses a method and device for user identification in network community, which relates to the field of machine learning and user identification technology. The methods include: extracting the first N_gram features of the pre-collected network community text data and generating the first word vector; training the first word vector with depth neural network at the cost of cross-entropy to get the text content analysis model; using text content analysis model to analyze the text data of the user to be identified to get the content attributes; and using preset behavior score. The analysis model analyses the behavior data of the user to be identified, and obtains the behavior attributes; identifies the user to be identified according to the content attributes and behavior attributes. In this application, N_gram feature is introduced, and target user recognition is carried out by combining user content and user behavior data. Compared with the existing user recognition of single dimension data, the recognition performance and accuracy are greatly improved.
【技术实现步骤摘要】
一种网络社区用户识别方法及装置
本申请涉及机器学习及用户识别
,尤其涉及一种网络社区用户识别方法及装置。
技术介绍
随着社交网络的不断发展,人们更愿意通过网络社区,微博等公共社交平台来表达自己的观点,发表对热点事件的评论。这种公共平台的影响力和传播能力日益提升,使得个人的影响力也随之提升,因此在众多的情况下,根据用户在社交网络中发布数据、发布行为等来准确识别用户越来越受到人们的关注。当前,目标用户识别的方法主要通过传统统计模型或者通过基于机器学习的数据挖掘算法,其中,基于机器学习的数据挖掘算法,多以特征选择的方式进行。例如,HGao等人基于社交网络中目标用户的分布和爆发两方面,利用数据统计分析设计了一种方法来识别社交网络中的目标用户;GyongyiZ基于PageRank提出TrustRank的概念,以己知的正常用户作为起点,以偏移率进行分数传播从而确定所有用户的分数,最后依靠各用户的分数来区分目标用户。然而上述方法均为单一维度特征数据的统计和挖掘,识别性能及准确率均有待于提高;并且在机器学习过程中,随着目标越来越复杂,有些重要的特征难以量化,需要付出很的高代价来选取合适的特征。可见,适应于当前社交网络的快速发展,能够综合多维度的数据进行有效的目标用户识别是有必要的。
技术实现思路
为解决现有技术的不足,本申请提出一种网络社区用户识别方法及装置。第一方面,本申请提出一种网络社区用户识别方法,包括:提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型;使用所述 ...
【技术保护点】
1.一种网络社区用户识别方法,其特征在于,包括:提取预先收集的网络社区文本数据的第一N‑gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型;使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性;根据所述内容属性和所述行为属性识别所述待识别用户。
【技术特征摘要】
1.一种网络社区用户识别方法,其特征在于,包括:提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型;使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性;根据所述内容属性和所述行为属性识别所述待识别用户。2.根据权利要求1所述的方法,其特征在于,所述提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量,包括:对预先收集的网络社区文本数据进行分词;在分词结果中提取第一N-gram特征;生成所述第一N-gram特征对应词的第一词向量;对所述第一词向量进行one-hot编码,得到one-hot形式的第一词向量。3.根据权利要求2所述的方法,其特征在于,所述以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型,包括:将所述one-hot形式的第一词向量输入至深度神经网络,构建第一向量矩阵;对所述第一词向量矩阵进行预设运算,形成第二词向量矩阵;根据预设的分类类别,以交叉熵为代价函数,采用反向传播、梯度下降的形式迭代更新所述第一向量矩阵和第二向量矩阵,得到多分类的文本内容分析模型。4.根据权利要求3所述的方法,其特征在于,所述使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性,包括:提取待识别用户的文本数据的第二N-gram特征并生成第二词向量;使用所述文本内容分析模型对所述第二词向量进行分析,得到所述待识别用户的文本数据在各类别上的内容属性。5.根据权利要求4所述的方法,其特征在,所述使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性,包括:采用EM算法迭代计算所述内容属性与所述待识别用户的行为数据的近似分布,并将各近似分布作为所述待识别用户的行为属性。6.根据权利要求5所述的方法,其特征在于,所...
【专利技术属性】
技术研发人员:吴旭,许晋,颉夏青,戴雨伦,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。