【技术实现步骤摘要】
一种基于MPI的分布式ADMM垃圾邮件分类方法
[0001]本专利技术涉及分布式机器学习领域,具体涉及一种基于MPI的分布式ADMM垃圾邮件分类方法。
技术介绍
[0002]分类问题是人类所面临的一个非常重要且具有普遍意义的问题。它是基于已知训练集识别一个新的实例属于哪个类别的有监督的学习问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。例如自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题;文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。
[0003]交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)最早由Stephen Boyd等人于2010年提出,作为一种求解优化问题的计算框架,适用于求解分布式凸优化问题。ADMM算法为机器学习中的约束最优化问题的高效分布式求解提供了可能。原始的ADMM算法在统计机器学习、数据挖掘和计算机视觉等领域中得到了广泛应用。作为能够有效地协调若干个节点之间子全局模型变量优化的强有力工具,ADMM在分布式优化和统计学习中扮演着举足轻重的角色,受到了研究学者的极大关注。ADMM发展至今,己经被广泛地应用到机器学习、数据挖掘和信号处理等领域。
[0004]MPI(Massage Passing Interface,信息传递接口)是一个跨语言的通信协议,基于消息传递的编程模型,单机模式下用于不同进程间的通信,集 ...
【技术保护点】
【技术特征摘要】
1.一种基于MPI的分布式ADMM垃圾邮件分类方法,其特征在于,包括如下步骤:步骤1、将文本数据向量化为数字格式的数据集;步骤2、将数据集分割为训练集和测试集,对训练集进行过采样处理,再分割为若干份分别保存在若干个从节点上;步骤3、MPI并行执行所有节点上的代码,从节点并行更新局部模型;步骤4、主节点通过MPI规约功能汇总从节点的局部模型;步骤5、主节点更新全局模型,并利用MPI广播功能将全局模型分发到各个从节点;步骤6、循环交替更新从节点和主节点的模型,直到满足终止条件;步骤7、保存主节点的全局模型作为分类器模型;步骤8、利用训练得到的分类器模型对测试集进行分类,输出分类结果。2.根据权利要求1所述的一种基于MPI的分布式ADMM垃圾邮件分类方法,其特征在于,步骤1利用NLP技术,将文本数据向量化为数字格式的数据集;处理后的数据集表示为其中n为样本数量,x
i
为第i个d维的样本数据向量,y
i
为第i个样本标签,R
d
表示d维的实数集,i取值1~n;使用L2正则化的L2损失支持向量机SVM作为线性分类模型,目标函数表示为:其中C>0是一个超参数,用来控制正则项和损失项比重关系,w是分类模型变量,且w∈R
d
;使用SMOTE算法对训练集过采样处理使得训练集中正样本和负样本数量相当,接着再分割为若干份分别保存在若干个从节点上。3.根据权利要求2所述的一种基于MPI的分布式ADMM垃圾邮件分类方法,其特征在于,步骤2将数据集按照4:1的比例分割为训练集和测试集,并分割为若干份分别保存在若干台从节点上,同时复制代码文件到若干个从节点,假设数据被存在了m个节点(D1,D2,
…
,D
m
)上,式(1)改写为:s.t.w
j
‑
z=0,j=1,
…
,m其中ρ是一个超参数,w
j
是第j个从节点的局部模型变量,z是在主节点上更新的全局模型变量,且z∈R
d
;将式(2)改写成增广拉格朗日形式得到式(3),即:
其中θ
j
是第j个从节点的模型对偶变量。4.根据权利要求3所述的一种基于MPI的分布式ADMM垃圾邮件分类方法,其特征在于,步骤3中MPI并行执行所有节点上的代码,通过mpiexec命令完成;主节点上随机初始化全局模型变量z,各从节点上随机初始化局部模型变量w
j
及其对偶变量θ
j
,初始化为全零;从节点并行更新局部模型变量,由ADMM算法更新规则得到,w,z,θ按如下公式迭代更新:如下公式迭代更新:如下公式迭代更新:其中k是迭代次数,拉格朗日函数L(w,z,θ)对于w
j
可分解;在各个从节点上并行地解决公式(4)来更新局部模型变量w
j
:5.根据权利要求4所述的一种基于MPI的分布式ADMM垃圾邮件分类方法,其特征在于,步骤4中主节点通过MPI规约功能汇总从节点的局部模型,通过如下代码创建MPI的通信子comm:comm=MPI.COMM_WORLD,其中COMM_WORLD是MPI的内置对象,接着利用通信子实现规约功能,表示如下:comm.Reduce(sendbuf,recvbuf,Op,root)其中Reduce是规约函数,sendbuf表示从节点发送的内容,传入局部模型变量及其对...
【专利技术属性】
技术研发人员:肖明霏,刘龙恩,王慧慧,周沧琦,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。