基于随机森林的社交网络用户画像方法技术

技术编号:15691871 阅读:61 留言:0更新日期:2017-06-24 05:25
本发明专利技术提供了一种基于随机森林的社交网络用户画像方法,具体包括如下步骤:获取在线社交网站的多源属性数据;将原始多源属性的数据属性集合进行原始属性标号,调用相似度函数对不同属性的数据属性集合遍历相似检测;根据原始单层多源属性的决策树,将相似度满足阈值范围的数据属性集合合并生成合并属性标签后,采用随机森林算法训练样本;获取投票众数,将获得的投票众数赋予权重,再按照权重的由大到小排序,获取全部的标签权重值;保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像。本发明专利技术目的在于采用随机森林模型,用于用户的属性标签划分,有效改进了传统的基于小样本抽样划分属性的不足和复杂度的问题。

A method of social network user portrait based on random forest

The invention provides a social network user portrait method based on random forest, and includes the following steps: multi attribute data acquisition of online social networking sites; the data attribute attribute set to the original original multi - attribute label, called similarity function of different data attribute set of decision tree traversal similarity detection; according to the original single source the attribute, data attribute will meet the similarity threshold set combined to generate a combined properties after the label, the random forest algorithm; acquisition of voting mode, the voting mode according to the weight of the weight, from big to small order, get the weight value of all labels; keep within the preset threshold label, forming a tag a new attribute set for the attributes of the social network user portrait. The invention aims at adopting random forest model for user's attribute label division, effectively improving the traditional deficiency and complexity of attribute division based on small sample sampling.

【技术实现步骤摘要】
基于随机森林的社交网络用户画像方法
本专利技术涉及在线社会网络
,特别涉及一种基于随机森林的社交网络用户画像方法。
技术介绍
在线社会网络的研究是近年来学术研究的重点领域,我国有着世界上规模最大的互联网网民,因此,在互联网的前期推广阶段和现阶段的使用过程中产生了大量的数据。绝大多数的数据资源被闲置,不能很好的处理和商业化应用,造成巨大的损失,同时也不利于社交网络的进一步发展,各大互联网公司纷纷投入巨大的财力和人力对在线社会关系领域开展一系列研究,把互联网的数据资源合理的开发和使用意义重大。
技术实现思路
本专利技术提供一种基于随机森林的社交网络用户画像方法,目的在于采用随机森林模型,用于用户的属性标签划分,有效改进了传统的基于小样本抽样划分属性的不足和复杂度的问题。为解决上述问题,本专利技术实施例提供一种基于随机森林的社交网络用户画像方法,具体包括如下步骤:获取在线社交网站的多源属性数据;将原始多源属性的数据属性集合进行原始属性标号,调用相似度函数对不同属性的数据属性集合遍历相似检测;根据原始单层多源属性的决策树,将相似度满足阈值范围的数据属性集合合并生成合并属性标签后,采用随机森林算法训练样本;获取投票众数,将获得的投票众数赋予权重,再按照权重的由大到小排序,获取全部的标签权重值;保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像。作为一种实施方式,还包括以下步骤:设定最低检测终止阈值,当相似度小于最低检测终止阈值时,终止该集合的相似度检测。作为一种实施方式,所述最低检测终止阈值为0.15。作为一种实施方式,所述相似度函数为:其中,α为相似度调节参数,α∈[0,1],ω(x)代表标签相似度较高的两种属性函数。作为一种实施方式,所述α取值为0.001。作为一种实施方式,所述保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像步骤,具体包括以下步骤:设定标签众数阈值,当随机森林算法获取的投票众数小于标签众数时,则认为该标签不具代表性,舍弃该标签;将保留后的标签根据标签权重值由大到小排序,形成新的标签属性集。作为一种实施方式,所述相似度阈值范围为[0.9,1]。本专利技术相比于现有技术的有益效果在于:采用随机森林模型,用于用户的属性标签划分,有效改进了传统的基于小样本抽样划分属性的不足和复杂度的问题。附图说明图1为本专利技术的基于随机森林的社交网络用户画像方法的流程图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的部分实施例,而不是全部实施例。如图所示,一种基于随机森林的社交网络用户画像方法,具体包括如下步骤:S100:获取在线社交网站的多源属性数据,将其导入数据存储系统;S101:将原始多源属性的数据属性集合进行原始属性标号,调用相似度函数对不同属性的集合遍历相似检测,相似度函数为:其中,其中,α为相似度调节参数,α∈[0,1],ω(x)代表标签相似度较高的两种属性函数。但是实际中α取值一般非常小,依赖于样本的测试取值不断修正,根据实验结果表明当α提高一个数量级时,选择的特征非常少,而当α降低一个数量级时获取的数值几乎不变,因此,本实施例中α使用0.001;S102:设定最低检测终止阈值,当相似度小于最低检测终止阈值时,终止该集合的相似度检测,其中,最低检测终止阈值为0.15;S103:根据原始单层多源属性的决策树,将相似度满足阈值范围的集合合并生成合并属性标签后,采用随机森林算法训练样本,相似度阈值范围为[0.9,1];S104:获取投票众数,将获得的投票众数赋予权重,再按照权重的由大到小排序,获取全部的标签权重值;S105:保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像,具体实施方式为:设定标签众数阈值,当随机森林算法获取的投票众数小于标签众数阈值时,则认为该标签不具代表性,舍弃该标签;将保留后的标签根据标签权重值由大到小排序,形成新的标签属性集,新的标签属性集用于社交网络的用户画像。本专利技术相比于现有技术的有益效果在于:采用随机森林模型,用于用户的属性标签划分,有效改进了传统的基于小样本抽样划分属性的不足和复杂度的问题。以上所述的具体实施例,对本专利技术的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本专利技术的具体实施例而已,并不用于限定本专利技术的保护范围。特别指出,对于本领域技术人员来说,凡在本专利技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...
基于随机森林的社交网络用户画像方法

【技术保护点】
一种基于随机森林的社交网络用户画像方法,其特征在于,具体包括如下步骤:获取在线社交网站的多源属性数据;将原始多源属性的数据属性集合进行原始属性标号,调用相似度函数对不同属性的数据属性集合遍历相似检测;根据原始单层多源属性的决策树,将相似度满足阈值范围的数据属性集合合并生成合并属性标签后,采用随机森林算法训练样本;获取投票众数,将获得的投票众数赋予权重,再按照权重的由大到小排序,获取全部的标签权重值;保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像。

【技术特征摘要】
1.一种基于随机森林的社交网络用户画像方法,其特征在于,具体包括如下步骤:获取在线社交网站的多源属性数据;将原始多源属性的数据属性集合进行原始属性标号,调用相似度函数对不同属性的数据属性集合遍历相似检测;根据原始单层多源属性的决策树,将相似度满足阈值范围的数据属性集合合并生成合并属性标签后,采用随机森林算法训练样本;获取投票众数,将获得的投票众数赋予权重,再按照权重的由大到小排序,获取全部的标签权重值;保留预设阈值内的标签,形成新的标签属性集用于用户社交网络中属性的画像。2.根据权利要求1所述的基于随机森林的社交网络用户画像方法,其特征在于,还包括以下步骤:设定最低检测终止阈值,当相似度小于最低检测终止阈值时,终止该集合的相似度检测。3.根据权利要求2所述的基于随机森林的社交网络用户画像方法,其特征在于,所述最低检...

【专利技术属性】
技术研发人员:琚春华胡坤鲍福光
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1