一种用户兴趣分类方法技术

技术编号:23852417 阅读:24 留言:0更新日期:2020-04-18 09:20
本发明专利技术公开了数据分类技术领域的种用户兴趣分类方法,使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具Spark Streaming系统+Kafka系统+Hbase系统来搭建整个计算流程,本发明专利技术通过UCB算法来构建置信区间曲线,通过实际的反馈不断重新计算UCB的值,以达到动态调整置信区间曲线,使其不断拟合趋近于真实的概率分布曲线,某个类别的UCB的值越大,代表用户更喜欢这个类别,使用UCB方法来计算用户的兴趣偏好,对用户对歌曲的兴趣偏好进行分类,方便根据用户的兴趣进行偏好歌曲的推送,以及服务器数据的更新。

A user interest classification method

【技术实现步骤摘要】
一种用户兴趣分类方法
本专利技术涉及数据分类
,具体为一种用户兴趣分类方法。
技术介绍
互联网产品上线后,都会面临一个问题,当有新用户来的时候,不可避免会遇到冷启动的问题,新用户的曝光和播放次数相对较少,如何提高新用户的留存率,尽可能的让用户习惯使用自己的产品一直是研究的难点,解决问题的一个方向就是获取用户的兴趣类别,然后有的放矢的为用户进行个性化推荐,这样可以达到事半功倍的效果。当前互联网产品特别是音频类产品针对新用户的提高留存的方法,一般是尽量推荐产品中现有的比较热门的专辑,一般认为热门的专辑对于新用户具有比较大的吸引力,通过积累一定的用户的点击,播放,购买等行为之后,根据模型计算预测用户的兴趣偏好类别,这种方法导致的结果是预测用户的兴趣类别是比较偏热门的类别,而偏冷门的类别却没有更多的曝光机会,导致预测用户的兴趣出现偏差,基于此,本专利技术设计了一种用户兴趣分类方法,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种用户兴趣分类方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种用户兴趣分类方法,使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程,整个计算流程步骤如下:S1:服务器通过Kafka系统将原始数据收据,并通过Kafka系统传输到下游;S2:通过SparkStreaming系统接收步骤S1中Kafka系统传输下来的数据,并将传输下来的数据解析聚合成计算机语言的数据格式,再通过Kafka系统传输到下游;S3:下游通过SparkStreaming系统接收步骤S2中Kafka系统传输下来的解析合成数据,首先对传输下来的解析合成数据进行解析,实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布,并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布,代入UCB公式,得到当前批次用户的各个类别UCB的最新值;S4:将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类,同步更新到Hbase系统中,方便服务器根据用户的兴趣进行分类推送。优选的,所述Kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。优选的,所述SparkStreaming系统对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理,所述SparkStreaming系统接收到实时数据流同时将其划分为分批,这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流。优选的,所述Spark是专为大规模数据处理而设计的快速通用的计算引擎,所述API是一些预先定义的函数,或指软件系统不同组成部分衔接的约定,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。优选的,所述Hbase系统是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。优选的,所述PCServer是电脑服务器,是指网络中能对其它机器提供某些服务的计算机系统。优选的,所述UCB公式为整个公式由两部分组成收益+探索两部分组成,前者是倾向于推荐当前平均播放收益大的类别的音频产品,后者是倾向于推荐曝光次数相对较少的类别的音频产品。优选的,所述PCj和PHj为用户在类别j的当前批次的播放次数和历史播放次数,PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数,VCj和VHj为用户在类别j的当前批次的曝光次数和历史曝光次数,VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数,参数β控制收益部分和探索部分的比重,β越小,越倾向推荐曝光机会相对较少的音频产品,默认为0.4。与现有技术相比,本专利技术的有益效果是:本专利技术通过UCB算法来构建置信区间曲线(收益+探索),通过实际的反馈不断重新计算UCB的值,以达到动态调整置信区间曲线,使其不断拟合趋近于真实的概率分布曲线,某个类别的UCB的值越大,代表用户更喜欢这个类别,使用UCB方法来计算用户的兴趣偏好,对用户对歌曲的兴趣偏好进行分类,方便根据用户的兴趣进行偏好歌曲的推送,以及服务器数据的更新。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术计算流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种用户兴趣分类方法,使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程,整个计算流程步骤如下:S1:服务器通过Kafka系统将原始数据收据,并通过Kafka系统传输到下游,Kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据;S2:通过SparkStreaming系统接收步骤S1中Kafka系统传输下来的数据,并将传输下来的数据解析聚合成计算机语言的数据格式,再通过Kafka系统传输到下游,SparkStreaming系统对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理,SparkStreaming系统接收到实时数据流同时将其划分为分批,这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流;S3:下游通过SparkStreaming系统接收步骤S2中Kafka系统传输下来的解析合成数据,首先对传输下来的解析合成数据进行解析,实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布,并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布,代入UCB公式,得到当前批次用户的各个类别UCB的最新值,Hbase系统是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群,UCB公式为整个公式由本文档来自技高网...

【技术保护点】
1.一种用户兴趣分类方法,其特征在于:使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具Spark Streaming系统+Kafka系统+Hbase系统来搭建整个计算流程,整个计算流程步骤如下:/nS1:服务器通过Kafka系统将原始数据收据,并通过Kafka系统传输到下游;/nS2:通过Spark Streaming系统接收步骤S1中Kafka系统传输下来的数据,并将传输下来的数据解析聚合成计算机语言的数据格式,再通过Kafka系统传输到下游;/nS3:下游通过Spark Streaming系统接收步骤S2中Kafka系统传输下来的解析合成数据,首先对传输下来的解析合成数据进行解析,实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布,并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布,代入UCB公式,得到当前批次用户的各个类别UCB的最新值;/nS4:将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类,同步更新到Hbase系统中,方便服务器根据用户的兴趣进行分类推送。/n...

【技术特征摘要】
1.一种用户兴趣分类方法,其特征在于:使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程,整个计算流程步骤如下:
S1:服务器通过Kafka系统将原始数据收据,并通过Kafka系统传输到下游;
S2:通过SparkStreaming系统接收步骤S1中Kafka系统传输下来的数据,并将传输下来的数据解析聚合成计算机语言的数据格式,再通过Kafka系统传输到下游;
S3:下游通过SparkStreaming系统接收步骤S2中Kafka系统传输下来的解析合成数据,首先对传输下来的解析合成数据进行解析,实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布,并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布,代入UCB公式,得到当前批次用户的各个类别UCB的最新值;
S4:将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类,同步更新到Hbase系统中,方便服务器根据用户的兴趣进行分类推送。


2.根据权利要求1所述的一种用户兴趣分类方法,其特征在于:所述Kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。


3.根据权利要求1所述的一种用户兴趣分类方法,其特征在于:所述SparkStreaming系统对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理,所...

【专利技术属性】
技术研发人员:雷鸣
申请(专利权)人:上海麦克风文化传媒有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1