【技术实现步骤摘要】
基于DCWP
‑
RF算法的实时短视频用户画像预测方法及系统
[0001]本专利技术属于数据分析领域,涉及一种基于DCWP
‑
RF算法的实时短视频用户画像预测方法及系统。
技术介绍
[0002]现如今,用户画像已经应用在互联网行业,为各大互联网公司其提供决策导向。在短视频赛道中,各个平台同样存储着EB级的超大规模、多维度、高质量的用户行为数据,根据用户的点赞、评论、转发、收藏、停留时间、完播率等指标加权计算出用户各个属性的特征值,构建多维度的标签模型,进而为用户提供个性化的推荐服务。而大型互联网公司都有一套各自的实时用户画像预测系统,通过周期地构建用户画像预测模型来对用户画像进行预测。
[0003]实时用户画像系统的核心是用户画像预测模型,用户画像预测模型的构建主要分为浅层机器学习和深度神经网络。浅层机器学习在大多数情况下不具备精细化研究的能力,数据特征之间的存在的强相关关系并没有被充分挖掘出来。深度学习技术被应用到用户画像预测模型的构建中,深度神经网络能够发现浅层机器学习无法发现的 ...
【技术保护点】
【技术特征摘要】
1.基于DCWP
‑
RF算法的实时短视频用户画像预测方法,其特征在于,包括:步骤1:将原始数据集划分为n个数据集并进行存储,读取数据集到n个分区中,每个数据集对应一个分区;步骤2:每个分区分别对原始数据集进行有放回的抽取,获取对应不同分区的测试数据集和训练数据集;步骤3:基于CART算法、C4.5算法和训练数据集,分别构建不同的决策树预测模型;步骤4:基于测试数据集对所获取的决策树进行分类测试,筛选出正确率高的决策树;步骤5:重复步骤3和步骤4,直到构建出K个决策树形成初始随机森林;步骤6:将初始随机森林中的每个决策树都视为一个独立的cluster;基于dunn_index和k
‑
medoids的混合聚类对初始随机森林中的cluster进行处理,构建新随机森林;步骤7:基于测试数据集对新随机森林中的各个决策树进行测试,获取各个决策树的输出结果;步骤8:对每个决策树的输出结果分别进行加权处理,输出预测结果。2.根据权利要求1所述的基于DCWP
‑
RF算法的实时短视频用户画像预测方法,其特征在于,所述步骤1具体为:将原始数据集划分为n个数据集存储在HDFS上,读取HDFS中的数据集到RDD,RDD为多个分区的数据集,即分配给不同节点进行计算的数据集,存储在内存中。3.根据权利要求2所述的基于DCWP
‑
RF算法的实时短视频用户画像预测方法,其特征在于,所述步骤2具体为:每个分区对应一个Spark计算节点,每个计算节点都对应一次有放回的抽样,抽到每个样本的概率都是1/n,每次抽样中都没有被抽到的数据集作为测试数据集,存储在HDFS上。4.根据权利要求3所述的基于DCWP
‑
RF算法的实时短视频用户画像预测方法,其特征在于,所述步骤3和步骤4,具体为:其中训练数据集为S1,测试数据集为S2;针对训练数据集S1,分别基于CART算法和C4.5算法构建决策树预测模型T1、T2,再将测试数据集S2通过决策树T1、T2进行分类测试;假设对于测试数据集S2,决策树T1、T2的分类正确率分别为P1、P2,比较P1、P2,认为决策树T1、T2中分类正确率高的决策树更优。5.根据权利要求4所述的基于DCWP
‑
RF算法的实时短视频用户画像预测方法,其特征在于,所述基于dunn_index和k
‑
medoids的混合聚类对初始随机森林中的cluster进行处理,构建新随机森林,具体为:5.1、计算随机森林内任意两棵cluster之间的相异度和dunn_index;5.2、将dunn_index最小的两个cluster合并成一个新的cluster,再次更新所有cluster之间的最大相异度;5.3、重复5.1和5.2,直到剩余cluster的个数等于初始设定值K
′
;5.4、对K
′
个决策树中分类性能最好的一个决策树进行筛选,作为k
‑
medoids算法的初始cluster;5.5、依次对未分类的决策树计算它们各自与每个cluster中心点的相异度,参照最近邻原则来将其分配到最近的cluster;5.6、随机选择clusterC
i
内的一个决策树T
i
,将T
i
作为C
i
的中心点,计算T
i
的分类精度,如果T
i
的分类精度比于上一棵决策树T
i
‑1的分类精度高,就将T
i
...
【专利技术属性】
技术研发人员:周子杭,赵加坤,
申请(专利权)人:江苏至信信用评估咨询有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。