The invention discloses an optimization method of multi-response parameters in large data classification of heterogeneous networks. The method analyzes the classification parameters based on support vector machine theory, selects the parameters needed to be optimized according to the analysis results, uses floating-point coding method to code individuals in heterogeneous network populations, and constructs fitness function to evaluate the classification performance of support vector machines. According to fitness function value and Hamming distance, the fitness of individuals sharing is obtained. Iterative niche genetic algorithm is used to select, cross and mutate individuals in the population to obtain the optimal population, and to optimize the multi-response parameters in large data classification of heterogeneous networks.
【技术实现步骤摘要】
一种异质网络大数据分类中多响应参数优化方法
本专利技术涉及一种异质网络大数据分类,具体说是一种异质网络大数据分类中多响应参数优化方法。
技术介绍
异质网络中具有多种类型的边和节点,是一种信息网络,在异质网络中存在海量的语义信息,为了满足用户的需求,需要对异质网络中的大数据进行分类处理。而目前分类处理的方法可分为三个方向:(1)Vapnik等人提出了支持向量机,支持向量机是一种统计学习方法,在农业信息学、模式识别、生物信息学、网络入侵和故障诊断等领域中的应用较为频繁。支持向量机存在泛化能力强和学习速度快的特点,约束常数、支持向量机核函数参数以及核函数的类型对大数据分类的影响较大。对异质网络中的大数据进行分类时,需要人为确定一些参数,易出现不是最优参数的现象。当前大数据分类中参数优化方法存在分类效率低和分类结果准确率低的问题,需要对大数据分类中参数优化方法进行研究。(2)丁胜、张进、李波提出了一种基于MEA的SVM参数优化方法,该方法将“反思”机制和“学习”机制引入思维进化算法中,通过子群体之间存在的信息共享特性进行学习,比较子群体之间的适应度值,根据比较结果进行反思,完成大数据分类参数的优化,将该方法优化后的参数应用在大数据分类中,分类所用的时间较长,存在分类效率低的问题。(3)林怡、季昊魏等人提出了一种基于鱼群算法的分类参数优化方法,该方法首先对分类参数进行分析,采用仿生鱼群算法对正则化参数和小波核参数进行寻优,根据寻优结果建立参数优化后的分类模型,完成异质网络中大数据的分类,该方法得到的分类结果与实际结果不符,存在分类结果准确率低的问题。(4)王震宇、梁 ...
【技术保护点】
1.一种异质网络大数据分类中多响应参数优化方法,其特征在于,包括具体的优化参数选择和多响应参数优化方法。
【技术特征摘要】
1.一种异质网络大数据分类中多响应参数优化方法,其特征在于,包括具体的优化参数选择和多响应参数优化方法。2.根据权利要求1所述的一种异质网络大数据分类中多响应参数优化方法,其特征在于优化参数选择,具体步骤如下:设代表的是分类核函数中需要优化的参数;代表的是优化参数的取值范围,其中代表的是参数的初始值,设代表的是所有样本在训练过程中分布的期望半径,其计算公式为:(1)式中,代表的是训练样本的总数;代表的是异质网络中存在的第个训练样本;代表的是异质网络大数据分类的核函数,设、分别代表的是第一、二类样本分布在异质网络大数据分类中的期望半径,其计算公式如下:(2)式中,代表的是异质网络中存在的训练样本的类型,;代表的是异质网络中存在的第类别中的第个样本;代表的是第类型的样本在异质网络中存在的总数,设代表的是目标函数,大数据分类参数的优化目标是使函数最小化,通过下式对目标函数进行最小化处理:(3)式中,为分子,代表的是不同类型的训练样本的类内距离在异质网络中的平均值;为分母,代表的是不同类型训练样本在异质网络中的类间距离,类间距离代表的是两个不同类别的样本在异质网络中的分类边界之间存在的距离,使目标函数最小的目的是使样本之间存在最大的分类间隔,提高推广能力,给参数设置步长,通过公式(1)、(2)、(3)得到一个新的目标函数值,并将新的目标函数值与原来的目标函数值进行对比,留下函数值较小的目标函数和函数对应的参数,采用公式(1)、(2)、(3)对训练样本进行循环迭代,直至参数为,结束迭代,终止循环后,得到最小的目标函数值,和目标函数值相应的参数,此时得到的参数为大数据分类中的最优参数,完成大数据分类中参数的优化,本发明一种异质网络大数据分类中多响应参数优化方法中优化参数选择工作原理,具体如下:对异质网络大数据分类中的多响应参数进行优化之前,需要选择优化的参数,异质网络大数据分类中多响应参数优化方法在支持向量机理论基础上对参数进行分析,确定需要进行优化的参数,采用支持向量机分类方法对异质网络中的大数据进行分类时,将低维线性问题通过核函数映射到高维空间中,将不可分问题转变为可分问题,最初的支持向量机优化问题如下:(4)式中,代表的是目标函数,目标函数越小越好;代表的是偏移量;代表的是权重向量;,代表的是异质网络大数据分类中的样本总数,离群点的出现会使目标函数变大,此时将参数优化问题变为下式:(5)式中,代表的是损失,通过惩罚因子在目标函数中加入损失,此时惩罚因子为异质网络大数据分类中需要优化的参数,离群点造成的损失程度通过惩罚因子决定,当损失保持不变时,目标函数的损失随着惩罚因子的增大而增大,表明离散点的重视程度较高,将惩罚因子设置为无限大是最极端的情况,此时只要存在一个点离群,目标函数的值就接近无限大,此时优化问题无解,所以对异质网络大数据分类中多响应参数进行优化时,在多响应参数可以设置一样识别率的情况下,选取惩罚因子最小的参数,可以解决支持向量机过学习的问题,提高大数据分类的精准度,通常情况下RBF核为支持向量机默认的核函数,设代表的是RBF核中的参数,通过参数对支持向量之间存在的相关程度进行反映,当参数的值过小时,支持向量之间的关联较为松弛;当参数的值过大时,支持向量之间的相互影响力过强,模型的精度较低,通过上述分析得到异质网络大数据分类中需要优化的多响应参数,分别是惩罚因子和参数。3.根据权利要求1所述的一种异质网络大数据分类中多响应参数优化方法,其特征在于多响应参数优化方法,具体步骤如下:对异质网络大数据分类中的多响应参数进行优化之前,需要选择优化的参数,异质网络大数据分类中多响应参数优化方法在支持...
【专利技术属性】
技术研发人员:胡锐,王磊,黄凯,胡书涵,张梓霄,
申请(专利权)人:苏州科技大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。