一种用户兴趣分类方法技术

技术编号：23852417 阅读：24 留言：0更新日期：2020-04-18 09:20

本发明专利技术公开了数据分类技术领域的种用户兴趣分类方法，使用UCB方法来计算用户的兴趣偏好，是在近实时的情况下进行计算，借助大数据工具Spark Streaming系统+Kafka系统+Hbase系统来搭建整个计算流程，本发明专利技术通过UCB算法来构建置信区间曲线，通过实际的反馈不断重新计算UCB的值，以达到动态调整置信区间曲线，使其不断拟合趋近于真实的概率分布曲线，某个类别的UCB的值越大，代表用户更喜欢这个类别，使用UCB方法来计算用户的兴趣偏好，对用户对歌曲的兴趣偏好进行分类，方便根据用户的兴趣进行偏好歌曲的推送，以及服务器数据的更新。

A user interest classification method

全部详细技术资料下载

【技术实现步骤摘要】
一种用户兴趣分类方法
本专利技术涉及数据分类
，具体为一种用户兴趣分类方法。
技术介绍
互联网产品上线后，都会面临一个问题，当有新用户来的时候，不可避免会遇到冷启动的问题，新用户的曝光和播放次数相对较少，如何提高新用户的留存率，尽可能的让用户习惯使用自己的产品一直是研究的难点，解决问题的一个方向就是获取用户的兴趣类别，然后有的放矢的为用户进行个性化推荐，这样可以达到事半功倍的效果。当前互联网产品特别是音频类产品针对新用户的提高留存的方法，一般是尽量推荐产品中现有的比较热门的专辑，一般认为热门的专辑对于新用户具有比较大的吸引力，通过积累一定的用户的点击，播放，购买等行为之后，根据模型计算预测用户的兴趣偏好类别，这种方法导致的结果是预测用户的兴趣类别是比较偏热门的类别，而偏冷门的类别却没有更多的曝光机会，导致预测用户的兴趣出现偏差，基于此，本专利技术设计了一种用户兴趣分类方法，以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种用户兴趣分类方法，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种用户兴趣分类方法，使用UCB方法来计算用户的兴趣偏好，是在近实时的情况下进行计算，借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程，整个计算流程步骤如下：S1：服务器通过Kafka系统将原始数据收据，并通过Kafka系统传输到下游；S2：通过SparkStreaming系统接收步骤S1中K...

【技术保护点】
1.一种用户兴趣分类方法，其特征在于：使用UCB方法来计算用户的兴趣偏好，是在近实时的情况下进行计算，借助大数据工具Spark Streaming系统+Kafka系统+Hbase系统来搭建整个计算流程，整个计算流程步骤如下：/nS1：服务器通过Kafka系统将原始数据收据，并通过Kafka系统传输到下游；/nS2：通过Spark Streaming系统接收步骤S1中Kafka系统传输下来的数据，并将传输下来的数据解析聚合成计算机语言的数据格式，再通过Kafka系统传输到下游；/nS3：下游通过Spark Streaming系统接收步骤S2中Kafka系统传输下来的解析合成数据，首先对传输下来的解析合成数据进行解析，实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布，并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布，代入UCB公式，得到当前批次用户的各个类别UCB的最新值；/nS4：将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类，同步更新到Hbase系统中，方便服务器根据用户的兴趣进行分类推送。/n...

【技术特征摘要】
1.一种用户兴趣分类方法，其特征在于：使用UCB方法来计算用户的兴趣偏好，是在近实时的情况下进行计算，借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程，整个计算流程步骤如下：
S1：服务器通过Kafka系统将原始数据收据，并通过Kafka系统传输到下游；
S2：通过SparkStreaming系统接收步骤S1中Kafka系统传输下来的数据，并将传输下来的数据解析聚合成计算机语言的数据格式，再通过Kafka系统传输到下游；
S3：下游通过SparkStreaming系统接收步骤S2中Kafka系统传输下来的解析合成数据，首先对传输下来的解析合成数据进行解析，实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布，并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布，代入UCB公式，得到当前批次用户的各个类别UCB的最新值；
S4：将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类，同步更新到Hbase系统中，方便服务器根据用户的兴趣进行分类推送。

2.根据权利要求1所述的一种用户兴趣分类方法，其特征在于：所述Kafka系统是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。

3.根据权利要求1所述的一种用户兴趣分类方法，其特征在于：所述SparkStreaming系统对于Spark核心API的拓展，从而支持对于实时数据流的可拓展，高吞吐量和容错性流处理，所...

【专利技术属性】
技术研发人员：雷鸣，
申请(专利权)人：上海麦克风文化传媒有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人