System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于数据湖的推荐系统数据处理方法、装置及存储介质。
技术介绍
1、推荐系统已成为众多互联网应用的核心组件,其作用在于精准匹配用户需求与海量信息,提升用户满意度与平台的运营效率。然而,随着数据量的激增,传统推荐系统在处理大规模、高维度的特征数据时,暴露出存储与计算效率低、更新不及时、扩展性差等问题。特别是在实时性要求较高的场景下,难以实现有效存储与快速检索特征数据,且无法保证样本数据的时效性与准确性。
2、近年来,数据湖技术的兴起为解决上述问题提供了新思路。数据湖以其开放、灵活的数据存储架构,支持海量数据的存储与分析,尤其在处理非结构化和半结构化数据方面展现出优势。然而,现有技术中还没有基于数据湖技术的推荐系统的相关数据处理方法。
技术实现思路
1、本专利技术提供了一种基于数据湖的推荐系统数据处理方法、装置及存储介质,可以有效解决上述问题。
2、本专利技术是这样实现的:
3、本专利技术提供一种基于数据湖的推荐系统数据处理方法,包括以下步骤:
4、s1,将不同模块的特征数据进行分类,然后根据所述特征数据的实时性需求,将特征数据细分为短期有效类别以及长期有效类别,再将所述长期有效特征采用永久存储列簇以保证数据完整性,而短期有效特征则分配至定时过期列簇,以实现每一用户id的特征数据在数据库中的分类化存储;其中,所述短期有效特征又包括小时更新及日更新两个类别;
5、s2,获取用户在客户端app产生的操作行为,并将所
6、s3,对所述数据流进行实时处理,根据用户id和操作行为数据流查询所述数据库缓存中对应的用户行为和特征数据,构建包含用户id、商品id、操作行为的样本数据;
7、s4,将所述样本数据通过apache flink批量写入paimon分区表中,paimon分区策略为基于时间、用户id或操作类型进行多维分区;
8、s5,定期执行离线数据处理,对paimon分区表中的样本数据进行深度分析,以聚合用户曝光数据,生成标签信息,并将标签信息及曝光时刻的特征数据作为用户训练特征,其中,所述用户训练特征用于为机器学习提供训练样本。
9、优选地,短期有效特征,通过动态标签机制划分为高频更新短期有效特征和低频更新短期有效特征,并将所述高频更新短期有效特征存储于redis缓存,所述频更新短期有效特征存储于lindorm中,以实现用户id的特征数据的层次化存储和快速访问。
10、优选地,所述短期有效特征和长期有效特征的分类基于机器学习模型预测不同特征的更新频率,以动态调整特征的类别。
11、优选地,长期有效类别的特征数据包括性别、城市、手机号归属地,其分别是独立根据用户填写进行实时更新,并直接分配至永久存储列簇进行存储。
12、优选地,所述标签信息包括实时标签和离线标签,实时标签用于用户的实时推荐场景,离线标签为机器学习模型提供长期训练数据。
13、优选地,所述利用apache flink的流处理能力从所述kafka消息队列中获取操作行为数据流之后,还包括:
14、检测所述操作行为数据流中的异常数据,其中,所述异常数据包括重复行为和无效数据。
15、本专利技术第二实施例提供了一种基于数据湖的推荐系统数据处理装置,包括:
16、处理器;
17、用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行如上任一项所述的方法。
18、本专利技术第三实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的方法。
19、本专利技术的有益效果是:基于数据湖的推荐系统数据处理方法、装置及存储介质,首先,将不同模块的特征数据进行分类,然后根据所述特征数据的实时性需求,将特征数据细分为短期有效类别以及长期有效类别,再将所述长期有效特征采用永久存储列簇以保证数据完整性,而短期有效特征则分配至定时过期列簇,以实现每一用户id的特征数据在lindorm中的分类化存储,从而可以解决推荐系统特征数据的高效存储与访问;其次,结合了flink、lindorm、paimon的协同作用,构建了一套完整的数据处理与分析流程,实现了特征的时效性与数据的深度利用,为推荐系统的持续优化提供了坚实的技术基础;最后,使用曝光日志产生时的特征作为用户的训练特征,从而可以为机器学习模型提供高质量训练样本,进一步的,还可以极大程度的缓解的特征时间穿越的问题。
本文档来自技高网...【技术保护点】
1.一种基于数据湖的推荐系统数据处理方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,在步骤S1中,短期有效特征,通过动态标签机制划分为高频更新短期有效特征和低频更新短期有效特征,并将所述高频更新短期有效特征存储于Redis缓存,所述频更新短期有效特征存储于Lindorm中,以实现用户ID的特征数据的层次化存储和快速访问。
3.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,所述短期有效特征和长期有效特征的分类基于机器学习模型预测不同特征的更新频率,以动态调整特征的类别。
4.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,长期有效类别的特征数据包括性别、城市、手机号归属地,其分别是独立根据用户填写进行实时更新,并直接分配至永久存储列簇进行存储。
5.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,所述标签信息包括实时标签和离线标签,实时标签用于用户的实时推荐场景,离线标签为机器学习模型提供长期训练数据。
6.如权利要求1
7.一种基于数据湖的推荐系统数据处理装置,其特征在于,包括:
8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如权利要求1至6任意一项所述的方法。
...【技术特征摘要】
1.一种基于数据湖的推荐系统数据处理方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,在步骤s1中,短期有效特征,通过动态标签机制划分为高频更新短期有效特征和低频更新短期有效特征,并将所述高频更新短期有效特征存储于redis缓存,所述频更新短期有效特征存储于lindorm中,以实现用户id的特征数据的层次化存储和快速访问。
3.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,所述短期有效特征和长期有效特征的分类基于机器学习模型预测不同特征的更新频率,以动态调整特征的类别。
4.如权利要求1所述的基于数据湖的推荐系统数据处理方法,其特征在于,长期有效类别的特征数据包括性别、城市、手机号归属地...
【专利技术属性】
技术研发人员:黄俊杰,王庭杰,吕金松,阮争志,郑颖,罗浩,陈晓亮,陈智生,余承超,魏陈超,陈玉明,卢俊文,
申请(专利权)人:厦门她趣信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。