一种基于SPARK计算的自助数据标签萃取方法及工具技术

技术编号：40041920 阅读：26 留言：0更新日期：2024-01-16 19:51

本发明专利技术公开一种基于SPARK计算的自助数据标签萃取方法，涉及数据处理技术领域，包括：定义业务主体，获取业务主体的历史业务数据；根据历史业务数据对业务主体进行数据处理和分析，生成特征数据；对特征数据进行预处理，将预处理后的特征数据进行分析和组合，生成标签；根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组，实施精准营销服务。本发明专利技术还公开了一种自助数据标签萃取工具，其用于实现前述方法。本发明专利技术可以根据已有的业务数据进行数据处理和分析，通过构建客户标签体系，支撑精准营销服务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体的说是一种基于spark计算的自助数据标签萃取方法及工具。

技术介绍

1、在大数据时代，数据在呈现出海量化、多样化和价值化变化的同时，也改变了传统it行业的市场竞争环境、营销策略和服务模式。

2、如果想要针对已有的业务数据构建客户标签体系，实施精准营销服务，那进行标签计算的过程时间不能过长，需要达到分钟级别，所以标签计算需要一个强大的大数据分布式计算引擎。

3、spark是一种基于内存的快速、通用、可扩展的大数据计算引擎。它集批处理、实时流处理、交互式查询、图计算与机器学习于一体，所以适用于标签计算的场景。

技术实现思路

1、本专利技术针对目前技术发展的需求和不足之处，提供一种基于spark计算的自助数据标签萃取方法及工具。

2、第一方面，本专利技术提供一种基于spark计算的自助数据标签萃取方法，解决上述技术问题采用的技术方案如下：

3、一种基于spark计算的自助数据标签萃取方法，包括如下步骤：

4...

【技术保护点】

1.一种基于SPARK计算的自助数据标签萃取方法，其特征在于,包括如下步骤：

2.根据权利要求1所述的一种基于SPARK计算的自助数据标签萃取方法，其特征在于，所述业务主体指的是具有唯一标识的独立个体的集合；

3.根据权利要求2所述的一种基于SPARK计算的自助数据标签萃取方法，其特征在于，根据历史业务数据对业务主体进行数据处理和分析，生成的特征数据包括基础特征和行为特征；

4.根据权利要求3所述的一种基于SPARK计算的自助数据标签萃取方法，其特征在于，对特征数据进行预处理，具体包括：

5.根据权利要求4所述的一种基于SPARK计算的自助...

【技术特征摘要】

1.一种基于spark计算的自助数据标签萃取方法，其特征在于,包括如下步骤：

2.根据权利要求1所述的一种基于spark计算的自助数据标签萃取方法，其特征在于，所述业务主体指的是具有唯一标识的独立个体的集合；

3.根据权利要求2所述的一种基于spark计算的自助数据标签萃取方法，其特征在于，根据历史业务数据对业务主体进行数据处理和分析，生成的特征数据包括基础特征和行为特征；

4.根据权利要求3所述的一种基于spark计算的自助数据标签萃取方法，其特征在于，对特征数据进行预处理，具体包括：

5.根据权利要求4所述的一种基于spark计算的自助数据标签萃取方法，其特征在于，将预处理后的特征数据进行分析和组合后，通过动态生成和外部导入两种方式生成标签，生成的标签包括特征和边界值两部分；...

【专利技术属性】
技术研发人员：孔繁博，孙海建，孙守伟，
申请(专利权)人：山东浪潮数字商业科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人