基于数据湖的推荐系统数据处理方法、装置及存储介质制造方法及图纸

技术编号:43579704 阅读:17 留言:0更新日期:2024-12-06 17:45
本发明专利技术提供了一种基于数据湖的推荐系统数据处理方法、装置及存储介质。将不同模块的特征数据进行分类,然后根据所述特征数据的实时性需求,将特征数据细分为短期有效类别以及长期有效类别,再将所述长期有效特征采用永久存储列簇以保证数据完整性,而短期有效特征则分配至定时过期列簇,从而可以解决推荐系统特征数据的高效存储与访问。本发明专利技术结合了Flink、Lindorm、Paimon的协同作用,构建了完整的数据处理与分析流程,实现特征的时效性与数据的深度利用,为推荐系统的持续优化提供坚实的技术基础。得益于链路的时效性,本发明专利技术可有效解决约10%的特征穿越问题,3%的重复样本问题,使用更精准的样本进行训练后,线上用户的使用率提升了2%,留存提升0.8%。

【技术实现步骤摘要】

本专利技术涉及一种基于数据湖的推荐系统数据处理方法、装置及存储介质


技术介绍

1、推荐系统已成为众多互联网应用的核心组件,其作用在于精准匹配用户需求与海量信息,提升用户满意度与平台的运营效率。然而,随着数据量的激增,传统推荐系统在处理大规模、高维度的特征数据时,暴露出存储与计算效率低、更新不及时、扩展性差等问题。特别是在实时性要求较高的场景下,难以实现有效存储与快速检索特征数据,且无法保证样本数据的时效性与准确性。

2、近年来,数据湖技术的兴起为解决上述问题提供了新思路。数据湖以其开放、灵活的数据存储架构,支持海量数据的存储与分析,尤其在处理非结构化和半结构化数据方面展现出优势。然而,现有技术中还没有基于数据湖技术的推荐系统的相关数据处理方法。


技术实现思路

1、本专利技术提供了一种基于数据湖的推荐系统数据处理方法、装置及存储介质,可以有效解决上述问题。

2、本专利技术是这样实现的:

3、本专利技术提供一种基于数据湖的推荐系统数据处理方法,包括以下步骤

4、本文档来自技高网...

【技术保护点】

1.一种基于数据湖的推荐系统数据处理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,在步骤S1中,短期有效特征,通过动态标签机制划分为高频更新短期有效特征和低频更新短期有效特征,并将所述高频更新短期有效特征存储于Redis缓存,所述频更新短期有效特征存储于Lindorm中,以实现用户ID的特征数据的层次化存储和快速访问。

3.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,所述短期有效特征和长期有效特征的分类基于机器学习模型预测不同特征的更新频率,以动态调整特征的类别。>

4.如权利要...

【技术特征摘要】

1.一种基于数据湖的推荐系统数据处理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,在步骤s1中,短期有效特征,通过动态标签机制划分为高频更新短期有效特征和低频更新短期有效特征,并将所述高频更新短期有效特征存储于redis缓存,所述频更新短期有效特征存储于lindorm中,以实现用户id的特征数据的层次化存储和快速访问。

3.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,所述短期有效特征和长期有效特征的分类基于机器学习模型预测不同特征的更新频率,以动态调整特征的类别。

4.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,长期有效类别的特征数据包括性别、城市、手机号归属地...

【专利技术属性】
技术研发人员:黄俊杰王庭杰吕金松阮争志郑颖罗浩陈晓亮陈智生余承超魏陈超陈玉明卢俊文
申请(专利权)人:厦门她趣信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1