【技术实现步骤摘要】
基于改进蝙蝠算法的文本特征选择方法、装置及存储介质
[0001]本专利技术涉及特征提取领域,尤其涉及一种基于改进蝙蝠算法的文本特征选择方法、装置及存储介质。
技术介绍
[0002]随着信息社会进入大数据时代,数据的快速增长既是机遇也是挑战。一方面,大数据可以为机器学习提供大规模的样本进行训练,另一方面,大数据的海量性会造成信息冗余。基于机器学习的方法可以将大量的琐碎的文本数据转化为有价值的信息,并且是非侵入性的,廉价且快速的,而且通常具有更高的准确率。由于大量的文本数据中充斥着许多冗余的数据,高维度的特征使得文本数据的信息难以被有效利用,导致算法学习性能下降,也增加了算法的时间和内存需求。因此特征选择是重要的,利用特征选择技术选取有用的特征可以有效的提高算法的性能。目前已经有很多算法用来进行特征的选择,有些基于评价函数对特征重要性进行排序,通过分析特征子集内部的特点来衡量其好坏,常见的评价指标有基于信息增益、基于距离、基于相关性等;还有一些算法用选取的特征子集对样本进行分类,将分类的精度作为衡量特征子集好坏的标准。但是这些算法没有考虑特征之间的相互影响和不同特征组合的表现,只是单一地评价某个特征的好坏。
[0003]近年来,由于启发式算法的优秀表现,特征选择算法开始越来越多的倾向于采用启发式算法来选择特征子集。其典型的启发式算法有,遗传算法,粒子群优化,蚁群优化,蝙蝠算法等等。其中蝙蝠算法由于其简单,有效的搜索机制,具有鲁棒性强和并行程度高等优点,越来越多被应用于策略识别和数据挖掘等领域。然而蝙蝠算法也存在一 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进蝙蝠算法的文本特征选择方法,其特征在于,包括:S1:获取若干文本特征数据集,并对若干文本特征数据集进行预处理,得到若干初始文本特征向量;S2:利用改进蝙蝠算法对若干文本特征向量进行迭代训练,得到多个精英文本特征子集;具体包括如下步骤:S21:初始化蝙蝠种群;S22:计算每个蝙蝠的适应度值;S23:根据每个蝙蝠的适应度值选取自适应度值最高的N个蝙蝠作为精英蝙蝠保留,其中N为预设值;S24:结合莱维飞行策略对非精英蝙蝠进行位置更新;S25:将适应度值最低的X个蝙蝠进行差分进化,其中X为预设值;S26:计算所有蝙蝠的适应度值,并据此更新精英蝙蝠;S27:重复步骤S24~S26直至完成预设迭代次数,得到N个精英蝙蝠,每个精英蝙蝠表示一个精英文本特征子集。2.根据权利要求1所述的基于改进蝙蝠算法的文本特征选择方法,其特征在于,所述步骤S21包括:设置蝙蝠种群个数为M,最大频率fmax,最小频率fmin,最大迭代次数Max_iteration,初始化蝙蝠种群的位置x
i
=(x
i1
,x
i2
,
…
,x
id
),初始化速度v
i
=(v
i1
,v
i2
,
…
,v
id
)和脉冲发射率r
i0
;其中,d为初始文本特征向量维度;x
i
表示第i个蝙蝠的位置,通过阈值将其转化为二进制位置,二进制位置中的值为1的表示当前位置的特征被选中,值为0表示当前位置的特征未被选中;v
i
表示第i个蝙蝠的速度。3.根据权利要求1所述的基于改进蝙蝠算法的文本特征选择方法,其特征在于,所述步骤S22包括:将分类算法的分类精度作为适应度函数来计算每个蝙蝠的适应度值,并找到最好的蝙蝠位置,即最优解x
*
。4.根据权利要求1所述的基于改进蝙蝠算法的文本特征选择方法,其特征在于,所述步骤S24包括:根据公式(1)
‑
(3)对非精英蝙蝠的频率、速度和位置进行更新,并限制其位置和速度在[
‑
1,1]范围;f
t
=f
min
+(f
max
‑
f
min
)
×
rand
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)v
i
(t+1)=v
i
(t)+(x
i
(t)
‑
x
*
)
×
f
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)x
i
(t+1)=x
i
(t)+v
i
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,f
min
和f
max
分别表示蝙蝠种群的最小频率和最大频率,t表示迭代次数,rand表示介于0到1之间的随机值,f
t
表示第t次迭代中蝙蝠种群的频率,v
i
(t)为第i只蝙蝠在第t次迭代中的速度,x
i
(t)表示第i只蝙蝠在第t次迭代中的位置,x
*
表示最好蝙蝠的位置,即最优解x
*
;产生随机数rand1,如果rand1&...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。