一种基于pyspark的机器学习方法和装置制造方法及图纸

技术编号：21158165 阅读：26 留言：0更新日期：2019-05-22 07:48

本发明专利技术实施例提供了一种基于pyspark的机器学习方法和装置，具体包括对传入的训练集进行格式校验；如果通过格式校验，则将训练集随机分为多个并行的分区；利用多个并行的分区进行迭代训练，得到目标模型的结果模型参数。由于本发明专利技术实现了分布式特征两两交叉情况下的参数计算，因此不再依赖于算法工程师对业务数据的了解，从而实现了效果较好的机器学习。

A pyspark-based machine learning method and device

The embodiment of the present invention provides a pyspark-based machine learning method and device, which includes format checking of the incoming training set; if the format checking is carried out, the training set is randomly divided into multiple parallel partitions; and the result model parameters of the target model are obtained by iterative training of multiple parallel partitions. Because the invention realizes parameter calculation under the condition of intersection of two distributed features, it no longer depends on the understanding of business data by the algorithm engineer, thus realizing better machine learning.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于pyspark的机器学习方法和装置
本专利技术涉及人工智能
，特别是涉及一种基于pyspark的机器学习方法和装置。
技术介绍
对于稀疏矩阵下的特征组合问题，传统机器学习一般仅考虑如何对特征赋予权重，而没有考虑特征间存在的相互作用，造成实现效果较差；或者是基于逻辑回归算法做大量的人工特征交叉，但是这样的交叉非常依赖于算法工程师对业务数据的理解，而且非常费事，但是绝大部分情况下算法实现和业务数据处理是相隔较远的两种业务，一般情况下算法工程师无法对业务数据做到深入的理解，这样一来同样造成最终的实现效果较差。
技术实现思路
有鉴于此，本专利技术提供了一种基于pyspark的机器学习方法和装置，以解决传统机器学习的实现效果较差的问题。为了解决上述问题，本专利技术公开了一种基于pyspark的机器学习方法，包括步骤：对传入的训练集进行格式校验，所述训练集中样本的格式为pyspark的dataframe格式；如果通过所述格式校验，则将所述训练集随机分为多个并行的分区；利用所述多个并行的分区进行迭代训练，得到目标模型的结果模型参数，所述目标模型为因子分解机。可选的，所述利用所述多个并行的分区进行迭代训练，包括：针对每个所述分区，每一轮迭代完成时，通过广播变量传递的中间模型参数计算损失函数；对所述损失函数求导，得到求导结果；利用所述求导结果更新所述中间模型参数；对所有分区的中间模型参数进行线性平均，得到平均模型参数；判断最近两次迭代计算的过程是否收敛，如是，则将所述平均模型参数输出为所述结果模型参数，如否则进行下一次迭代计算。可选的，所述对所述损失函数求导，包括...

【技术保护点】
1.一种基于pyspark的机器学习方法，其特征在于，包括步骤：对传入的训练集进行格式校验，所述训练集中样本的格式为pyspark的dataframe格式；如果通过所述格式校验，则将所述训练集随机分为多个并行的分区；利用所述多个并行的分区进行迭代训练，得到目标模型的结果模型参数，所述目标模型为因子分解机。

【技术特征摘要】
1.一种基于pyspark的机器学习方法，其特征在于，包括步骤：对传入的训练集进行格式校验，所述训练集中样本的格式为pyspark的dataframe格式；如果通过所述格式校验，则将所述训练集随机分为多个并行的分区；利用所述多个并行的分区进行迭代训练，得到目标模型的结果模型参数，所述目标模型为因子分解机。2.如权利要求1所述的机器学习方法，其特征在于，所述利用所述多个并行的分区进行迭代训练，包括：针对每个所述分区，每一轮迭代完成时，通过广播变量传递的中间模型参数计算损失函数；对所述损失函数求导，得到求导结果；利用所述求导结果更新所述中间模型参数；对所有分区的中间模型参数进行线性平均，得到平均模型参数；判断最近两次迭代计算的过程是否收敛，如是，则将所述平均模型参数输出为所述结果模型参数，如否则进行下一次迭代计算。3.如权利要求2所述的机器学习方法，其特征在于，所述对所述损失函数求导，包括：利用随机梯度下降算法或者小批量随机梯度算法对所述损失函数进行求导计算。4.如权利要求1所述的机器学习方法，其特征在于，还包括：把所述结果模型参数传到指定路径的文件中。5.如权利要求1所述的机器学习方法，其特征在于，在所述对传入的训练集进行格式校验步骤之前，还包括：准备所述训练集，所述训练集的每个样本至少包括特征字段和标签字段。6.一种基于pyspark的机器学习装置，其特征在于，包括：格式校验模块，用...

【专利技术属性】
技术研发人员：赵争超，卢寻，
申请(专利权)人：同盾控股有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人