System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,具体的说是一种基于spark计算的自助数据标签萃取方法及工具。
技术介绍
1、在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统it行业的市场竞争环境、营销策略和服务模式。
2、如果想要针对已有的业务数据构建客户标签体系,实施精准营销服务,那进行标签计算的过程时间不能过长,需要达到分钟级别,所以标签计算需要一个强大的大数据分布式计算引擎。
3、spark是一种基于内存的快速、通用、可扩展的大数据计算引擎。它集批处理、实时流处理、交互式查询、图计算与机器学习于一体,所以适用于标签计算的场景。
技术实现思路
1、本专利技术针对目前技术发展的需求和不足之处,提供一种基于spark计算的自助数据标签萃取方法及工具。
2、第一方面,本专利技术提供一种基于spark计算的自助数据标签萃取方法,解决上述技术问题采用的技术方案如下:
3、一种基于spark计算的自助数据标签萃取方法,包括如下步骤:
4、定义业务主体,获取业务主体的历史业务数据;
5、根据历史业务数据对业务主体进行数据处理和分析,生成特征数据;
6、对特征数据进行预处理,将预处理后的特征数据进行分析和组合,生成标签;
7、根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组,实施精准营销服务。
8、可选的,所涉及业务主体指的是具有唯一标识的独立个体的集合;
10、定义业务主体后,可以对已定义的业务主体进行修改或删除。
11、进一步可选的,根据历史业务数据对业务主体进行数据处理和分析,生成的特征数据包括基础特征和行为特征;
12、用户可以对生成的特征数据进行查看、新增、编辑和删除的操作;用户对生成的特征数据进行新增时,默认关联主键和主体名称,并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。
13、进一步可选的,对特征数据进行预处理,具体包括:
14、配置执行规则;
15、将业务主体的所有特征数据通过配置的执行规则生成指定的数据格式;
16、将特征数据对应的特征值根据转换引擎转换成指定的字段值,其中,转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法,将各类规则执行结果进行处理;
17、将所有的特征值放入表中的对应字段中,组成业务主体的特征表。
18、进一步可选的,将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分;
19、动态生成标签需要选择一个或者多个特征,选择支持“>、>=、<、<=、=、like、notlike”多种运算符,维护边界值;
20、外部导入生成标签需要选择数据表、数据字段、名称字段。
21、第二方面,本专利技术提供一种基于spark计算的自助数据标签萃取工具,解决上述技术问题采用的技术方案如下:
22、一种基于spark计算的自助数据标签萃取工具,其包括:
23、定义模块,用于定义业务主体;
24、获取模块,用于获取业务主体的历史业务数据;
25、特征生成模块,用于根据历史业务数据对业务主体进行数据处理和分析,生成特征数据;
26、预处理模块,用于对特征数据进行预处理;
27、标签生成模块,用于将预处理后的特征数据进行分析和组合,生成标签;
28、组合筛选模块,用于根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组,实施精准营销服务。
29、可选的,所涉及业务主体指的是具有唯一标识的独立个体的集合;
30、定义模块定义的业务主体内容包括:主体基础表名、主键和主体名称、英文名称、名称字段;
31、针对完成定义的业务主体,用户可以通过定义模块对其进行修改或删除。
32、进一步可选的,生成的特征数据包括基础特征和行为特征;
33、特征生成模块具有特征查看、新增、编辑和删除的功能;
34、用户通过特征生成模块对生成的特征数据进行新增时,默认关联主键和主体名称,并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。
35、进一步可选的,所涉及预处理模块对特征数据进行预处理的具体操作包括:
36、配置执行规则;
37、将业务主体的所有特征数据通过配置的执行规则生成指定的数据格式;
38、将特征数据对应的特征值根据转换引擎转换成指定的字段值,其中,转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法,将各类规则执行结果进行处理;
39、将所有的特征值放入表中的对应字段中,组成业务主体的特征表。
40、进一步可选的,所涉及标签生成模块将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分,其中:
41、标签生成模块通过动态方式生成标签时需要选择一个或者多个特征,选择支持“>、>=、<、<=、=、like、not like”多种运算符,维护边界值;
42、标签生成模块通过外部导入方式生成标签时需要选择数据表、数据字段、名称字段。
43、本专利技术的一种基于spark计算的自助数据标签萃取方法及工具,与现有技术相比具有的有益效果是:
44、本专利技术根据已有的业务数据对业务主体进行数据处理和分析,生成特征数据,根据业务主体的特征数据进行分析和组合,进而生成标签,根据单个标签或者多个标签的组合可以筛选出符合该标签下特征组合的个体群组,最终可以筛选出符合要求的个体群组,实施精准营销服务。
本文档来自技高网...【技术保护点】
1.一种基于SPARK计算的自助数据标签萃取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,所述业务主体指的是具有唯一标识的独立个体的集合;
3.根据权利要求2所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,根据历史业务数据对业务主体进行数据处理和分析,生成的特征数据包括基础特征和行为特征;
4.根据权利要求3所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,对特征数据进行预处理,具体包括:
5.根据权利要求4所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分;
6.一种基于SPARK计算的自助数据标签萃取工具,其特征在于,其包括:
7.根据权利要求6所述的一种基于SPARK计算的自助数据标签萃取工具,其特征在于,业务主体指的是具有唯一标识的独立个体的集合;
8.根据权利要求7所
9.根据权利要求8所述的一种基于SPARK计算的自助数据标签萃取工具,其特征在于,所述预处理模块对特征数据进行预处理的具体操作包括:
10.根据权利要求9所述的一种基于SPARK计算的自助数据标签萃取工具,其特征在于,所述标签生成模块将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分,其中:
...【技术特征摘要】
1.一种基于spark计算的自助数据标签萃取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于spark计算的自助数据标签萃取方法,其特征在于,所述业务主体指的是具有唯一标识的独立个体的集合;
3.根据权利要求2所述的一种基于spark计算的自助数据标签萃取方法,其特征在于,根据历史业务数据对业务主体进行数据处理和分析,生成的特征数据包括基础特征和行为特征;
4.根据权利要求3所述的一种基于spark计算的自助数据标签萃取方法,其特征在于,对特征数据进行预处理,具体包括:
5.根据权利要求4所述的一种基于spark计算的自助数据标签萃取方法,其特征在于,将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分;...
【专利技术属性】
技术研发人员:孔繁博,孙海建,孙守伟,
申请(专利权)人:山东浪潮数字商业科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。