System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及科学计算领域,尤其涉及一种基于数据中台的科学计算的分布式方法。
技术介绍
1、科学计算是构建在大数据平台之上,集数据预处理、特征工程、学习模型构建、离线预测、在线预测为一体的机器学习平台。平台将常用机器学习算法和数据分析功能封装成标准组件,通过拖拽操作即可实现模型训练和评估,提升数据分析师和数据建模工程师的工作效率。
2、科学计算涉及的机器学习的现有方案主要包括以下几种:
3、1.单机版算法训练和使用;
4、2.单一套件,没有整套支持分布式的数据套件。
5、而现有技术存在以下缺点:
6、1.速度较慢:单机计算是最简单的计算形式,即利用单台计算机进行计算,此时计算机不与任何网络互联,因而只能使用本计算机系统内可被即时访问的所有资源;
7、2.磁盘受限:一台计算机的存储容量达到50t就算是大容量了.就目前企业中产生的数据量来看.单台计算机的磁盘容量远远无法满足企业的存储需求;
8、3.内存受限:单台计算机的内存同样无法满足计算需求;
9、4.数据处理组件分散,没有统一的处理数据的平台。
技术实现思路
1、本专利技术的目的在于,针对上述的技术问题,提出一种基于数据中台的科学计算的分布式方法。
2、一种基于数据中台的科学计算的分布式方法,步骤为:
3、s1:加载样本数据,将数据解析为科学计算所需的格式;
4、s2:预处理数据,预处理后的数据进行特
5、s3:将数据分成两组,一组用于构建模型训练数据集,另一组用于测试模型验证数据集;
6、s4:运行算法组件来构建或训练算法模型;
7、s5:用训练数据进行预测,观察结果;
8、s6:使用测试数据测试和评估模型,使用验证数据集利用交叉验证技术验证模型;
9、s7:根据验证结果调整模型的性能和准确性;
10、s8:调整模型处理大量数据集的扩展性,最终部署模型。
11、进一步的,一种基于数据中台的科学计算的分布式方法,所述算法组件分类为二分类、多分类、聚类、推荐、评估、回归。
12、进一步的,一种基于数据中台的科学计算的分布式方法,所述二分类包括:gbdt模型、gbdt自动调参、lr模型、lr自动调参、svm模型、svm自动调参、xgboost模型、xgboost自动调参、xgboost预测、随机森林模型、随机森林自动调参。
13、进一步的,一种基于数据中台的科学计算的分布式方法,所述多分类包括lr模型、决策树模型、决策树自动调参、朴素贝叶斯分类自动调参、朴素贝叶斯模型、神经网络模型、随机森林分类自动调参、随机森林模型。
14、进一步的,一种基于数据中台的科学计算的分布式方法,所述聚类包括gmm模型、kmeans模型、kmeans自动调参。
15、进一步的,一种基于数据中台的科学计算的分布式方法,所述推荐包括协同过滤模型。
16、进一步的,一种基于数据中台的科学计算的分布式方法,所述评估包括二分类评估、回归评估、多分类评估。
17、进一步的,一种基于数据中台的科学计算的分布式方法,所述回归包括gbdt模型、gbdt自动调参、决策树模型、决策树自动调参、线性回归模型、线性回归自动调参、随机森林模型、随机森林自动调参。
18、进一步的,一种基于数据中台的科学计算的分布式方法,所述预处理的数据包括缺失值数据、脏数据、不一致数据、联合横向处理数据、联合纵向处理数据。
19、本专利技术的有益效果:通过一种基于数据中台的科学计算的分布式方法,解决了当数据本身是分布式的或量太大而不能存储在单个机器上的问题,和本地设备高效安全衔接,分布在各个设备上的机器学习能减少延迟,更能保障用户隐私,降低功耗,能在没有网络的情况下运行,利用设备的各种传感器,减少系统的维护成本和工作量。
本文档来自技高网...【技术保护点】
1.一种基于数据中台的科学计算的分布式方法,其特征在于,步骤为:
2.根据权利要求1所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述算法组件分类为二分类、多分类、聚类、推荐、评估、回归。
3.根据权利要求2所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述二分类包括:GBDT模型、GBDT自动调参、LR模型、LR自动调参、SVM模型、SVM自动调参、XGBoost模型、XGBoost自动调参、XGBoost预测、随机森林模型、随机森林自动调参。
4.根据权利要求2所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述多分类包括LR模型、决策树模型、决策树自动调参、朴素贝叶斯分类自动调参、朴素贝叶斯模型、神经网络模型、随机森林分类自动调参、随机森林模型。
5.根据权利要求2所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述聚类包括GMM模型、Kmeans模型、Kmeans自动调参。
6.根据权利要求2所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述推荐包括协同过滤
7.根据权利要求2所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述评估包括二分类评估、回归评估、多分类评估。
8.根据权利要求2所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述回归包括GBDT模型、GBDT自动调参、决策树模型、决策树自动调参、线性回归模型、线性回归自动调参、随机森林模型、随机森林自动调参。
9.根据权利要求1所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述预处理的数据包括缺失值数据、脏数据、不一致数据、联合横向处理数据、联合纵向处理数据。
...【技术特征摘要】
1.一种基于数据中台的科学计算的分布式方法,其特征在于,步骤为:
2.根据权利要求1所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述算法组件分类为二分类、多分类、聚类、推荐、评估、回归。
3.根据权利要求2所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述二分类包括:gbdt模型、gbdt自动调参、lr模型、lr自动调参、svm模型、svm自动调参、xgboost模型、xgboost自动调参、xgboost预测、随机森林模型、随机森林自动调参。
4.根据权利要求2所述的一种基于数据中台的科学计算的分布式方法,其特征在于,所述多分类包括lr模型、决策树模型、决策树自动调参、朴素贝叶斯分类自动调参、朴素贝叶斯模型、神经网络模型、随机森林分类自动调参、随机森林模型。
5.根据权利要求2所述的一...
【专利技术属性】
技术研发人员:王明明,聂鑫,王晶,刘博成,
申请(专利权)人:启明信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。