一种用户冷启动内容推荐方法、计算设备及存储介质技术

技术编号:37261373 阅读:10 留言:0更新日期:2023-04-20 23:35
本发明专利技术公开了一种用户冷启动内容推荐方法,包括:获取存量用户的曝光点击行为数据和用户基础画像特征;通过点击率预估模型对曝光点击行为数据和用户基础画像特征训练,得到存量用户的画像特征embedding向量;根据存量用户的画像特征embedding向量对存量用户进行聚类,得到多个用户分群和每个用户分群的特征embedding向量;获取新用户的特征embedding向量,基于向量检索工具获取与新用户最相似的用户分群,将与新用户最相似的用户分群的偏好内容推荐给新用户。该方案能够提高新用户内容推荐的多样性和准确性。荐的多样性和准确性。荐的多样性和准确性。

【技术实现步骤摘要】
一种用户冷启动内容推荐方法、计算设备及存储介质


[0001]本专利技术涉及用户推荐
,具体涉及一种用户冷启动内容推荐方法、计算设备及存储介质。

技术介绍

[0002]推荐系统的主要目标是将大量的标的物推荐给可能喜欢的海量用户,基于用户兴趣标签画像的信息流内容推荐,基于用户地域热度、全局热度的内容推荐,已经成为推荐系统最常规的推荐方法。同时,对于行为数据相对充足的用户,可以基于行为协同过滤的方法来做信息流内容推荐。
[0003]但是对于新注册用户,缺乏用户有效行为数据记录,就无法形成准确的用户兴趣画像,仅仅基于用户全局热度、地理、性别、年龄等标签做多维度聚合,计算量大,且用户个性化较差,容易造成信息流内容推荐的长尾效应。因此,解决用户冷启动的内容推荐问题成为提升新用户留存率和粘性的关键点。
[0004]现有技术中利用新用户在其他平台的行为足迹,构建用户的群体属性。然后基于“物以类聚,人以群分”的理论,根据用户兴趣特征,进行聚类,将用户划分成多个子集,然后根据各子集用户的历史行为计算得到商品偏好,作为该类用户的候选集。该方案引入第三方外部数据来完善用户画像,但是针对面向企业用户的APP应用第三方数据很难获取,也缺乏规范的标签体系。
[0005]因此,需要一种用户冷启动内容推荐方法,以提高新用户内容推荐的多样性和准确性,以解决以上现有技术中存在的问题。

技术实现思路

[0006]鉴于上述问题,本方案提出了一种用户冷启动内容推荐方法,能够根据用户多维度的画像信息和行为数据对已有存量用户进行准确分群,选择与新用户最相似的用户分群进行内容推荐,提高新用户内容推荐的多样性和准确性,解决现有技术中用户群体规模不足导致个性化推荐结构偏差大的问题。
[0007]根据本专利技术的第一方面,提供一种用户冷启动内容推荐方法,包括:获取存量用户的曝光点击行为数据和用户基础画像特征;通过点击率预估模型对获取的曝光点击行为数据和用户基础画像特征训练,得到存量用户的画像特征embedding向量;根据存量用户的基础画像特征embedding向量对存量用户进行聚类,得到多个用户分群和每个用户分群的特征embedding向量;获取新用户的特征embedding向量,基于向量检索工具获取与新用户最相似的用户分群;将与新用户最相似的用户分群的偏好内容推荐给新用户。
[0008]通过采用上述方案,根据APP已有存量用户的多维度画像信息和信息流场景下曝光点击行为数据,能够有效地学习到老用户基础画像特征的embedding向量表示,根据老用户基础画像特征embedding向量表示对存量用户进行聚类分群,当新用户访问APP时,选择与新用户最相似的用户群体,将该用户群体的多样性偏好信息融合后推荐给新用户,提高
了新用户推荐内容的多样性、准确性,有利于提升新用户点击率,进一步提升新用户留存率。
[0009]可选地,在上述方法中,通过日志采集系统采集存量用户的日志信息,将日志信息存储在分布式数据库中,日志信息包括曝光内容和存量用户对曝光内容的点击行为;获取存量用户的基础画像特征和统计画像特征,基础画像特征包括性别、年龄、地域、用户设备信息、用户网络状态、用户最常登录地址、用户最近一次登录地址,统计画像特征包括预设时间内感兴趣内容一级分类标签、预设时间内感兴趣内容二级分类标签、用户感兴趣关键词列表。
[0010]可选地,在上述方法中,对存量用户的曝光点击行为数据进行数据清洗和预处理;将用户点击的曝光内容作为正样本数据,将用户点击行为之前的曝光内容以及曝光内容停留时间小于预设时长的曝光内容的交集作为负样本数据;将用户基础画像特征、正样本数据和负样本数据输入点击率预估模型中进行训练和评估,得到存量用户的画像特征embedding向量。
[0011]可选地,在上述方法中,基于FM、FFM、deepFM、AFM中任意一种点击率预估模型,对用户基础画像特征、正样本数据和负样本数据进行训练好评估,得到存量用户基础画像特征embedding向量和内容画像特征embedding向量。
[0012]可选地,在上述方法中,将每个存量用户的画像特征embedding向量进行平均,得到每个存量用户的特征向量;基于每个存量用户的特征向量,使用无监督聚类算法对存量用户进行聚类,得到多个用户分群;计算每个用户分群的平均embedding向量,将平均embedding向量作为用户分群的特征embedding向量。
[0013]可选地,在上述方法中,获取新用户的基础画像特征,使用点击率预估模型获取对应的新用户特征embedding向量,新用户的基础画像特征包括性别、年龄、地域、设备信息、网络状态、登陆地址;基于点击率预估模型获取的每个特征的权重对新用户特征embedding向量加权平均得到新用户的特征向量;基于新用户的特征向量,采用faiss向量检索工具,获取与新用户最相似的用户分群可选地,在上述方法中,将与新用户最相似的用户分群点击率最高的内容、点击量最大的内容、完播率最大的内容进行融合,将融合后的内容推荐给新用户。
[0014]可选地,在上述方法中,将与新用户最相似的用户分群点击率最高的内容、点击量最大的内容、完播率最大的内容进行融合,将融合后的偏好内容推荐给新用户。
[0015]可选地,在上述方法中,存量用户包括使用过APP的老用户、行为特征数据稠密的用户,新用户包括新注册或新登录用户、行为特征数据稀疏的用户。
[0016]根据本专利技术的另一个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行上述用户冷启动内容推荐方法的指令。
[0017]根据本专利技术的又一个方面,提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行上述的用户冷启动内容推荐方法。
[0018]根据本专利技术的方案,根据APP存量用户多维度的画像特征和信息流场景下曝光点击行为数据,能够有效地学习到已有老用户基础画像特征的embedding向量表示;根据老用户基础画像特征embedding向量表示对全部用户进行聚类分群,当新用户访问APP时,选择
与新用户最相似的用户群体,将该用户群体的多样性偏好信息融合后推荐给新用户,提高了新用户推荐内容的多样性、准确性,有利于提升新用户点击率,进一步提升新用户留存率。
[0019]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0020]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的计算设备10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户冷启动内容推荐方法,适于在计算设备中执行,其特征在于,包括:获取存量用户的曝光点击行为数据和用户基础画像特征;通过点击率预估模型对所述曝光点击行为数据和用户基础画像特征训练,得到存量用户的画像特征embedding向量;根据所述存量用户的画像特征embedding向量对存量用户进行聚类,得到多个用户分群和每个用户分群的特征embedding向量;获取新用户的特征embedding向量,基于向量检索工具获取与新用户最相似的用户分群,将与新用户最相似的用户分群的偏好内容推荐给所述新用户。2.根据权利要求1所述的用户冷启动内容推荐方法,其特征在于,所述获取存量用户的曝光点击行为数据和用户基础画像特征的步骤包括:通过日志采集系统采集存量用户的日志信息,将日志信息存储在分布式数据库中,所述日志信息包括曝光内容和存量用户对曝光内容的点击行为;获取存量用户的基础画像特征和统计画像特征,所述基础画像特征包括性别、年龄、地域、用户设备信息、用户网络状态、用户最常登录地址、用户最近一次登录地址,所述统计画像特征包括预设时间内感兴趣内容一级分类标签、预设时间内感兴趣内容二级分类标签、用户感兴趣关键词列表。3.根据权利要求1所述的用户冷启动内容推荐方法,其特征在于,所述通过点击率预估模型对所述曝光点击行为数据和用户基础画像特征训练,得到存量用户的画像特征embedding向量的步骤包括:对存量用户的曝光点击行为数据进行数据清洗和预处理;将用户点击的曝光内容作为正样本数据,将用户点击行为之前的曝光内容以及曝光内容停留时间大于预设时长的曝光内容的交集作为负样本数据;将用户基础画像特征、正样本数据和负样本数据输入点击率预估模型中进行训练和评估,得到存量用户的画像特征embedding向量。4.根据权利要求3所述的用户冷启动内容推荐方法,其特征在于,所述将用户基础画像特征、正样本数据和负样本数据输入点击率预估模型中进行训练和评估,得到存量用户的画像特征embedding向量的步骤包括:基于FM、FFM、deepFM、AFM中任意一种点击率预估模型,对用户基础画像特征、正样本数据和负样本数据进行训练和评估,得到用户基础画像特征embedding向量和内容画像特征embedding向量。5.根据权利...

【专利技术属性】
技术研发人员:贾现永刘卫宇郑楚彬蔡子哲
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1