System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及特征开发的,尤其涉及一种特征在线开发方法及系统。
技术介绍
1、随着科技的发展,数据呈现几何式增长,以往的特征工程技术采用大量数据进行处理,并将大量数据通过手动选择以及构建特征,此时,大量数据并没有进行筛选处理,容易含有一些不同类的数据,大量的数据进行无差别的组合,并形成机器学习模型,可是该机器学习模型的准确性较低。
技术实现思路
1、本专利技术的目的在于克服现有技术的不足,本专利技术提供了一种特征在线开发方法及系统,基于多个特征集合在web页面内进行在线处理,同时,将多个特征集合中的连续特征进行分箱处理,以便于优化连续特征,从而降低特征的数据量,因此,将各类型特征基于页面进行在线开发,以构建机器学习模型,提高了机器学习模型的准确性。
2、为了解决上述技术问题,本专利技术实施例提供了一种特征在线开发方法,包括:
3、获取多个数据,并将多个数据形成数据集合;
4、基于数据集合获取多个特征集合;
5、根据多个特征集合以表格的形式展现在web页面中,并将多个特征集合中的连续特征进行分箱处理,以形成各分箱特征;
6、在分箱特征中,以代表性的特征为主,将其他相似的特征合并为对应的类型特征;
7、将各类型特征定义为编辑资源,并基于页面进行在线开发,以构建机器学习模型。
8、可选的,所述获取多个数据,并将多个数据形成数据集合,包括:
9、获取多个数据;
10、将多个数据进行分
11、基于各原始数据形成原始数据集合,同时,基于各衍生数据形成衍生数据集合;
12、根据原始数据集合和衍生数据集合形成数据集合,此时,将索引信息关联数据集合。
13、可选的,所述基于数据集合获取多个特征集合,包括:
14、基于数据集合中的原始数据集合确定原始特征;基于数据集合中的衍生数据集合确定衍生特征;
15、将原始特征和衍生特征进行关联,并形成多个特征集合;
16、基于多个特征集合进行特征筛选,以确定异常特征;
17、定位异常特征,并优化多个特征集合。
18、可选的,所述根据多个特征集合以表格的形式展现在web页面中,并将多个特征集合中的连续特征进行分箱处理,以形成各分箱特征,包括:
19、基于多个特征集合进行图表化,并将多个特征集合形成表格;
20、将该表格记载于web页面,并基于web页面编辑表格,其中,web页面采用分页设计,每页包含一个特征集合,每个特征集合有自己的编号和标题;
21、在表格中,遍历多个特征集合中的连续特征;
22、根据连续特征进行分箱处理,此时,采用等宽分箱或等频分箱进行分箱,以形成各分箱特征,并将连续特征划分为离散区间,从而减少特征数量。
23、可选的,所述根据多个特征集合以表格的形式展现在web页面中,并将多个特征集合中的连续特征进行分箱处理,以形成各分箱特征,还包括:
24、获取各分箱特征;
25、同步遍历各分箱特征,并基于各分箱特征进行异常排查;
26、在分箱特征的异常排查,检测分箱特征中的特征内容;
27、基于特征内容与预设参数内容相比,以确定异常子特征,并基于异常子特征进行修改。
28、可选的,所述在分箱特征中,以代表性的特征为主,将其他相似的特征合并为对应的类型特征,包括:
29、在分箱特征中,基于模型的种类遍历分箱特征中的代表性的特征;
30、将代表性的特征作为关键特征;
31、将代表性的特征与各特征进行同步对比,并确定对应的相似度;
32、基于相似度与预设相似度相比,以确定其他相似的特征;
33、以代表性的特征为主,将其他相似的特征合并,以形成对应的类型特征。
34、可选的,所述在分箱特征中,以代表性的特征为主,将其他相似的特征合并为对应的类型特征,还包括:
35、针对类型特征进行优化,获取类型特征中各个类型参数;
36、基于各个类型参数进行排序,并根据模型的类型对各个类型参数进行优先级排序;
37、根据各个类型参数以及对应的优先级再定义类型特征的类型。
38、可选的,所述将各类型特征定义为编辑资源,并基于页面进行在线开发,以构建机器学习模型,包括:
39、获取各类型特征;
40、基于各类型特征定义为编辑资源,并针对类型特征进行编辑;
41、将该类型特征加载至页面,并基于页面对类型特征进行在线开发;
42、在类型特征的在线开发过程中,将多个类型特征进行训练,并以构建机器学习模型。
43、可选的,所述将各类型特征定义为编辑资源,并基于页面进行在线开发,以构建机器学习模型,还包括:
44、获取机器学习模型;
45、定义机器学习模型中的学习参数;
46、定位机器学习模型所在环境因素,基于环境因素定义环境参数;
47、将环境参数加入至学习参数,以进一步进行学习参数的自学习;
48、基于学习参数对机器学习模型进行升级迭代。
49、另外,本专利技术实施例还提供了一种特征的在线开发系统,所述特征的在线开发系统包括:
50、获取模块,用于获取多个数据,并将多个数据形成数据集合;
51、特征模块,用于基于数据集合获取多个特征集合;
52、分箱模块,用于根据多个特征集合以表格的形式展现在web页面中,并将多个特征集合中的连续特征进行分箱处理,以形成各分箱特征;
53、合并模块,用于在分箱特征中,以代表性的特征为主,将其他相似的特征合并为对应的类型特征;
54、构建模块,用于将各类型特征定义为编辑资源,并基于页面进行在线开发,以构建机器学习模型。
55、在本专利技术实施例中,通过本专利技术实施例中的方法,获取多个数据,并将多个数据形成数据集合;基于数据集合获取多个特征集合;根据多个特征集合以表格的形式展现在web页面中,并将多个特征集合中的连续特征进行分箱处理,以形成各分箱特征;在分箱特征中,以代表性的特征为主,将其他相似的特征合并为对应的类型特征;将各类型特征定义为编辑资源,并基于页面进行在线开发,以构建机器学习模型,此时,基于多个特征集合在web页面内进行在线处理,同时,将多个特征集合中的连续特征进行分箱处理,以便于优化连续特征,从而降低特征的数据量,因此,将各类型特征基于页面进行在线开发,以构建机器学习模型,提高了机器学习模型的准确性。
本文档来自技高网...【技术保护点】
1.一种特征在线开发方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的特征在线开发方法,其特征在于,所述获取多个数据,并将多个数据形成数据集合,包括:
3.根据权利要求2所述的特征在线开发方法,其特征在于,所述基于数据集合获取多个特征集合,包括:
4.根据权利要求1所述的特征在线开发方法,其特征在于,所述根据多个特征集合以表格的形式展现在Web页面中,并将多个特征集合中的连续特征进行分箱处理,以形成各分箱特征,包括:
5.根据权利要求4所述的特征在线开发方法,其特征在于,所述根据多个特征集合以表格的形式展现在Web页面中,并将多个特征集合中的连续特征进行分箱处理,以形成各分箱特征,还包括:
6.根据权利要求5所述的特征在线开发方法,其特征在于,所述在分箱特征中,以代表性的特征为主,将其他相似的特征合并为对应的类型特征,包括:
7.根据权利要求6所述的特征在线开发方法,其特征在于,所述在分箱特征中,以代表性的特征为主,将其他相似的特征合并为对应的类型特征,还包括:
8.根据权利要求7所述的特
9.根据权利要求8所述的特征在线开发方法,其特征在于,所述将各类型特征定义为编辑资源,并基于页面进行在线开发,以构建机器学习模型,还包括:
10.一种特征的在线开发系统,其特征在于,所述特征的在线开发系统应用于如权利要求1-9中任一所述的特征在线开发方法,所述特征的在线开发系统包括:
...【技术特征摘要】
1.一种特征在线开发方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的特征在线开发方法,其特征在于,所述获取多个数据,并将多个数据形成数据集合,包括:
3.根据权利要求2所述的特征在线开发方法,其特征在于,所述基于数据集合获取多个特征集合,包括:
4.根据权利要求1所述的特征在线开发方法,其特征在于,所述根据多个特征集合以表格的形式展现在web页面中,并将多个特征集合中的连续特征进行分箱处理,以形成各分箱特征,包括:
5.根据权利要求4所述的特征在线开发方法,其特征在于,所述根据多个特征集合以表格的形式展现在web页面中,并将多个特征集合中的连续特征进行分箱处理,以形成各分箱特征,还包括:
6.根据权利要求5所述的特征在线开发方法,...
【专利技术属性】
技术研发人员:唐科伟,叶剑涛,
申请(专利权)人:浙江孚临科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。