【技术实现步骤摘要】
本专利技术涉及数据处理,具体的说是一种基于spark计算的自助数据标签萃取方法及工具。
技术介绍
1、在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统it行业的市场竞争环境、营销策略和服务模式。
2、如果想要针对已有的业务数据构建客户标签体系,实施精准营销服务,那进行标签计算的过程时间不能过长,需要达到分钟级别,所以标签计算需要一个强大的大数据分布式计算引擎。
3、spark是一种基于内存的快速、通用、可扩展的大数据计算引擎。它集批处理、实时流处理、交互式查询、图计算与机器学习于一体,所以适用于标签计算的场景。
技术实现思路
1、本专利技术针对目前技术发展的需求和不足之处,提供一种基于spark计算的自助数据标签萃取方法及工具。
2、第一方面,本专利技术提供一种基于spark计算的自助数据标签萃取方法,解决上述技术问题采用的技术方案如下:
3、一种基于spark计算的自助数据标签萃取方法,包括如下步骤:
4
...【技术保护点】
1.一种基于SPARK计算的自助数据标签萃取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,所述业务主体指的是具有唯一标识的独立个体的集合;
3.根据权利要求2所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,根据历史业务数据对业务主体进行数据处理和分析,生成的特征数据包括基础特征和行为特征;
4.根据权利要求3所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,对特征数据进行预处理,具体包括:
5.根据权利要求4所述的一种基于
...【技术特征摘要】
1.一种基于spark计算的自助数据标签萃取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于spark计算的自助数据标签萃取方法,其特征在于,所述业务主体指的是具有唯一标识的独立个体的集合;
3.根据权利要求2所述的一种基于spark计算的自助数据标签萃取方法,其特征在于,根据历史业务数据对业务主体进行数据处理和分析,生成的特征数据包括基础特征和行为特征;
4.根据权利要求3所述的一种基于spark计算的自助数据标签萃取方法,其特征在于,对特征数据进行预处理,具体包括:
5.根据权利要求4所述的一种基于spark计算的自助数据标签萃取方法,其特征在于,将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分;...
【专利技术属性】
技术研发人员:孔繁博,孙海建,孙守伟,
申请(专利权)人:山东浪潮数字商业科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。