一种基于SQL的机器学习方法和系统技术方案

技术编号：19342338 阅读：32 留言：0更新日期：2018-11-07 13:57

本发明专利技术公开了一种基于SQL的机器学习方法和系统,涉及数据分析与挖掘领域，包括以下步骤：S1：标记当前用户的数据集,所述数据集包括训练集、测试集、参数集；S2：根据特征处理流程对训练集和测试集进行特征处理；S3：根据参数集转换待训练用的参数组合；S4：取出一个参数组合，并调用SQL内嵌方法进行模型训练，选出当前最优模型；S5：循环执行S4，直到S3中参数组合使用完毕；S6：使用模型。本方案降低了非专业人员认识和利用机器学习算法的门槛，减少了数据分析与挖掘软件研发人员的工作量。

A machine learning method and system based on SQL

The invention discloses a machine learning method and system based on SQL, which relates to the field of data analysis and mining, including the following steps: S1: marking the current user's data set, which includes training set, test set and parameter set; S2: feature processing of training set and test set according to feature processing flow; S3: feature processing of training set and test set according to feature processing flow; Parameter sets transform the combination of parameters to be trained; S4: take out a combination of parameters, and call the SQL embedded method for model training to select the current optimal model; S5: cycle through the execution of S4 until the use of the combination of parameters in S3; S6: use the model. This scheme reduces the threshold for non-professionals to recognize and utilize machine learning algorithms, and reduces the workload of data analysis and mining software developers.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于SQL的机器学习方法和系统
本专利技术涉及数据分析与挖掘领域，尤其涉及一种基于SQL的机器学习方法和系统。
技术介绍
目前，在人工智能
，对于具体的数据分析、数据挖掘等问题，通常会经历数据清洗、特征转换、模型训练、模型评估、模型使用等五个主要环节。然而机器学习算法种类庞大，数量达到上百种，理论推导较难，算法更新速度较快，且不同算法适用的问题模型差异较大，如果是生产环境中使用数据挖掘技术，还涉及到模型的工程化部署问题。这对于数据、经济、医学、化学、通信等非互联网行业的技术人员及刚入门的计算机技术学习者，如何通过机器学习来尝试解决本领域内的一些问题是一项很困难的工作。因此如何降低这些非专业人员认识和利用机器学习算法的门槛是一个迫切的需求。
技术实现思路
本专利技术的目的在于：提供一种基于SQL的机器学习方法和系统，解决非专业人员认识和利用机器学习算法的门槛高，并且数据分析与挖掘软件研发人员的工作量大的问题。本专利技术采用的技术方案如下：一种基于SQL的机器学习方法和系统，包括以下步骤：S1：标记当前用户的数据集,所述数据集包括训练集、测试集、参数集；S2：根据特征处理流程对训练集和测试集进行特征处理；S3：根据参数集转换待训练用的参数组合；S4：取出一个参数组合，并调用SQL内嵌方法对特征处理后的训练集执行模型训练，选出当前最优模型；S5：循环执行S4，直到S3中参数组合使用完毕；S6：使用模型。进一步的，所述步骤S1中的训练集、测试集和参数集由用户直接指定或者SQL语句间接指定。进一步的，所述训练集还可以为步骤S1到S6中产生的新的数据集。进一步的...

【技术保护点】
1.一种基于SQL的机器学习方法和系统，其特征在于，包括以下步骤：S1：标记当前用户的数据集,所述数据集包括训练集、测试集、参数集；S2：根据特征处理流程对训练集和测试集进行特征处理；S3：根据参数集转换待训练用的参数组合；S4：取出一个参数组合，并调用SQL内嵌方法对特征处理后的训练集执行模型训练，选出当前最优模型；S5：循环执行S4，直到S3中参数组合使用完毕；S6：使用模型。

【技术特征摘要】
1.一种基于SQL的机器学习方法和系统，其特征在于，包括以下步骤：S1：标记当前用户的数据集,所述数据集包括训练集、测试集、参数集；S2：根据特征处理流程对训练集和测试集进行特征处理；S3：根据参数集转换待训练用的参数组合；S4：取出一个参数组合，并调用SQL内嵌方法对特征处理后的训练集执行模型训练，选出当前最优模型；S5：循环执行S4，直到S3中参数组合使用完毕；S6：使用模型。2.根据权利要求1所述一种基于SQL的机器学习方法和系统，其特征在于：所述步骤S1中的训练集、测试集和参数集由用户直接指定或者SQL语句间接指定。3.根据权利要求1所述一种基于SQL的机器学习方法和系统，其特征在于：所述训练集还可以为步骤S1到S6中产生的新的数据...

【专利技术属性】
技术研发人员：王永波，饶俊，傅玉生，
申请(专利权)人：成都优易数据有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人