一种网络社区用户识别方法及装置制造方法及图纸

技术编号:21184831 阅读:22 留言:0更新日期:2019-05-22 15:26
本申请公开一种网络社区用户识别方法及装置,涉及机器学习及用户识别技术领域。所述方法包括:提取预先收集的网络社区文本数据的第一N‑gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对第一词向量进行训练,得到文本内容分析模型;使用文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析待识别用户的行为数据,得到行为属性;根据内容属性和行为属性识别待识别用户。本申请中,引入N‑gram特征,并结合用户内容以及用户行为两个维度的数据进行目标用户的识别,相较于现有的单一维度数据的用户识别,大大提升了识别性能及准确度。

A Method and Device for User Recognition in Network Community

This application discloses a method and device for user identification in network community, which relates to the field of machine learning and user identification technology. The methods include: extracting the first N_gram features of the pre-collected network community text data and generating the first word vector; training the first word vector with depth neural network at the cost of cross-entropy to get the text content analysis model; using text content analysis model to analyze the text data of the user to be identified to get the content attributes; and using preset behavior score. The analysis model analyses the behavior data of the user to be identified, and obtains the behavior attributes; identifies the user to be identified according to the content attributes and behavior attributes. In this application, N_gram feature is introduced, and target user recognition is carried out by combining user content and user behavior data. Compared with the existing user recognition of single dimension data, the recognition performance and accuracy are greatly improved.

【技术实现步骤摘要】
一种网络社区用户识别方法及装置
本申请涉及机器学习及用户识别
,尤其涉及一种网络社区用户识别方法及装置。
技术介绍
随着社交网络的不断发展,人们更愿意通过网络社区,微博等公共社交平台来表达自己的观点,发表对热点事件的评论。这种公共平台的影响力和传播能力日益提升,使得个人的影响力也随之提升,因此在众多的情况下,根据用户在社交网络中发布数据、发布行为等来准确识别用户越来越受到人们的关注。当前,目标用户识别的方法主要通过传统统计模型或者通过基于机器学习的数据挖掘算法,其中,基于机器学习的数据挖掘算法,多以特征选择的方式进行。例如,HGao等人基于社交网络中目标用户的分布和爆发两方面,利用数据统计分析设计了一种方法来识别社交网络中的目标用户;GyongyiZ基于PageRank提出TrustRank的概念,以己知的正常用户作为起点,以偏移率进行分数传播从而确定所有用户的分数,最后依靠各用户的分数来区分目标用户。然而上述方法均为单一维度特征数据的统计和挖掘,识别性能及准确率均有待于提高;并且在机器学习过程中,随着目标越来越复杂,有些重要的特征难以量化,需要付出很的高代价来选取合适的特征。可见,适应于当前社交网络的快速发展,能够综合多维度的数据进行有效的目标用户识别是有必要的。
技术实现思路
为解决现有技术的不足,本申请提出一种网络社区用户识别方法及装置。第一方面,本申请提出一种网络社区用户识别方法,包括:提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型;使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性;根据所述内容属性和所述行为属性识别所述待识别用户。可选的,所述提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量,包括:对预先收集的网络社区文本数据进行分词;在分词结果中提取第一N-gram特征;生成所述第一N-gram特征对应词的第一词向量;对所述第一词向量进行one-hot编码,得到one-hot形式的第一词向量。可选的,所述以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型,包括:将所述one-hot形式的第一词向量输入至深度神经网络,构建第一向量矩阵;对所述第一词向量矩阵进行预设运算,形成第二词向量矩阵;根据预设的分类类别,以交叉熵为代价函数,采用反向传播、梯度下降的形式迭代更新所述第一向量矩阵和第二向量矩阵,得到多分类的文本内容分析模型。可选的,所述使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性,包括:提取待识别用户的文本数据的第二N-gram特征并生成第二词向量;使用所述文本内容分析模型对所述第二词向量进行分析,得到所述待识别用户的文本数据在各类别上的内容属性。可选的,所述使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性,包括:采用EM算法迭代计算所述内容属性与所述待识别用户的行为数据的近似分布,并将各近似分布作为所述待识别用户的行为属性。可选的,所述采用EM迭代算法计算所述内容属性与所述待识别用户的行为数据的近似分布,包括:假设所述待识别用户属于所述分类类别中的某个类别,读取该类别对应的内容属性,将读取的内容属性与所述行为数据作为数据集合,并设定所述数据集合的联合概率密度由估计参数所确定,交替执行E步和M步;E步:根据第t次迭代后的估计参数,计算所述数据集合的对数似然函数的期望;M步:最大化所述数据集合的对数似然函数的期望得到新的估计参数;当得到所述数据集合的最大对数似然函数的期望时,迭代结束,并将迭代得到的各估计参数作为待识别用户的行为属性。可选的,所述根据所述内容分析结果和所述行为属性识别所述待识别用户,包括:对所述待识别用户的文本数据在各类别上的内容属性、所述读取的内容属性、所述待识别用户在所述该类别上的各行为属性、所述数据集合的最大对数似然函数的期望对应的行为属性进行标准化处理,得到处理结果;根据所述处理结果,确定所述待识别用户是否属于所述该类别。可选的,所述根据所述处理结果,确定所述待识别用户是否属于所述该类别,包括:当所述处理结果大于所述该类别的标准阈值时,判定所述待识别用户属于该类别;否则判定待识别用户不属于该类别。第二方面,本申请提出一种网络社区用户识别装置,包括:提取生成模块,用于提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量;训练模块,用于基于深度神经网络和交叉熵代价函数对所述第一词向量训练得到文本内容分析模型;第一分析模块,用于使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性;第二分析模块,用于使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性;识别模块,用于根据所述内容分析结果和所述行为属性识别所述待识别用户。第三方面,本申请提出一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现如本申请第一方面所述的方法。本申请的优点在于:本申请中,一方面,结合用户内容以及用户行为两个维度的数据进行目标用户的识别,相较于现有的单一维度数据的用户识别,大大提升了识别性能及准确度;另一方面,在用户内容分析中,引入N-gram特征,加强了词语位置关系的区分以及上下文之间的联系,提升了识别性能;再一方面,在内容分析模型的训练中,不仅替换了原有深度神经网络的代价损失函数,而且无需人工标注样本特征,极大的降低了时间成本,提升了训练速度。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:附图1为根据本申请实施方式的一种网络社区用户识别方法流程图;附图2为根据本申请实施方式的一种网络社区用户识别装置框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。根据本申请的实施方式,提出一种网络社区用户识别方法,如图1所示,包括:步骤101:提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量;本申请中,预先收集网络社区用户在网络社区中发布的文本数据,优选的,采用半人工标注的方式将收集的文本数据划分为训练集和验证集,并提取各文本数据的第一N-gram特征并生成第一词向量。根据本申请的实施方式,步骤101包括:步骤101-1:对预先收集的网络社区文本数据进行分词;具体的,将预先收集的网络社区文本数据切分为多个字词,例如将文本数据“我喜欢你”,切分为我、喜、欢、你。步骤101-2:在分词结果中提取第一N-gram特征;本实施例中,为增强后续模型训练过程中对词语先后顺序的特征分析,提高准确率,加入N-gram特征。具体的,对于一个字符串S,该字符串S的N-gr本文档来自技高网...

【技术保护点】
1.一种网络社区用户识别方法,其特征在于,包括:提取预先收集的网络社区文本数据的第一N‑gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型;使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性;根据所述内容属性和所述行为属性识别所述待识别用户。

【技术特征摘要】
1.一种网络社区用户识别方法,其特征在于,包括:提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型;使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性;根据所述内容属性和所述行为属性识别所述待识别用户。2.根据权利要求1所述的方法,其特征在于,所述提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量,包括:对预先收集的网络社区文本数据进行分词;在分词结果中提取第一N-gram特征;生成所述第一N-gram特征对应词的第一词向量;对所述第一词向量进行one-hot编码,得到one-hot形式的第一词向量。3.根据权利要求2所述的方法,其特征在于,所述以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型,包括:将所述one-hot形式的第一词向量输入至深度神经网络,构建第一向量矩阵;对所述第一词向量矩阵进行预设运算,形成第二词向量矩阵;根据预设的分类类别,以交叉熵为代价函数,采用反向传播、梯度下降的形式迭代更新所述第一向量矩阵和第二向量矩阵,得到多分类的文本内容分析模型。4.根据权利要求3所述的方法,其特征在于,所述使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性,包括:提取待识别用户的文本数据的第二N-gram特征并生成第二词向量;使用所述文本内容分析模型对所述第二词向量进行分析,得到所述待识别用户的文本数据在各类别上的内容属性。5.根据权利要求4所述的方法,其特征在,所述使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性,包括:采用EM算法迭代计算所述内容属性与所述待识别用户的行为数据的近似分布,并将各近似分布作为所述待识别用户的行为属性。6.根据权利要求5所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:吴旭许晋颉夏青戴雨伦
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1