粒子群优化的文本特征选择方法技术

技术编号:19177476 阅读:78 留言:0更新日期:2018-10-17 00:23
本发明专利技术公开了一种基于粒子群优化的文本特征选择方法,该方法是为了解决采用空间向量模型表示文本出现文本特征向量高维且稀疏的问题,本发明专利技术将局部搜索策略嵌入到粒子群优化算法中选择出不相关和显著的特征子集,通过考虑粒子群的相关信息来指导粒子群算法在搜索过程中选择不同的特征,从而从原始特征中选择出更加有利于分类准确率的特征。本发明专利技术能够从庞大文本词集中选择出最有利于文本表示的特征子集,从而能为文本的分类、文本处理打下良好的基础。

Text feature selection method based on particle swarm optimization

The invention discloses a text feature selection method based on particle swarm optimization. The method aims to solve the problem of high-dimensional and sparse text feature vectors represented by space vector model. The local search strategy is embedded in particle swarm optimization algorithm to select unrelated and significant feature subsets. Particle swarm optimization (PSO) is guided to select different features in the process of searching by considering the relevant information of particle swarm optimization (PSO). The invention can select the feature subset which is most favorable for text representation from the huge text word set, thereby laying a good foundation for text classification and text processing.

【技术实现步骤摘要】
粒子群优化的文本特征选择方法
本专利技术涉及自然语言处理领域,具体地说是一种基于粒子群优化算法的特征选择方法(PSO-FS),应用于文本的特征选择中,选择出有效的特征从而更好地表示文本。
技术介绍
在大数据时代,数据产生日益庞大,从大量的数据中获得有用的信息变得更加复杂。利用人工的方法对数据进行处理则在大数据时代,产生的数据日益庞大,从大量的数据中获得有用的信息变得更加复杂。利用人工的方式对数据进行处理则难度很大,所以自然而言地想到利用机器来处理数据。文本分类是指对文本进行特征选择以及分析,将文本特征属性最相似的归为一类的过程。文本分类包括以下的几个步骤:分词、去停用词、特征选择、向量空间模型表示、训练分类器并且分类。文本大多数内容都是自然语言表示,与机器语言不同,因此需要将原始文本进行转换。VSM是将文本利用空间向量模型进行表示,若将分词所得的词语作为特征项,则向量维度庞大,这不仅给计算带来了复杂度,并且分词所得词语中有大量的无用信息,也对分类带来干扰,因此选择有效地文本特征项并且控制特征项的数量是极其关键的一步。特征选择是指通过一定的特征计算方法,从总的特征集合中选择出具有文本区分度强度的特征为特征项。特征选择对文本处理有着多种的意义:(1)特征选择能提高模型的预测性能,有效地提高准确率。(2)对模型的训练时间和预测的时间都有所减少,提高整体的效能。(3)揭示了数据中隐含意义以及数据的产生过程。简单来说就是特征选择使得从数据集中选择出最有效地特征,更好地对数据进行理解。特征选择出的有效特征集越小,使得表示是维度降低,降低了模型的学习成本。现有文档频率(DF)、X2(Chi)统计、信息增益(IG)、互信息(MI)等这几种常用的特征选择方法进行了介绍分析及对比,结果显示,针对不同的分类器及数据集,每种方法各有优缺。粒子群算法(ParticleSwarmOptimization,PSO)是源于对鸟群捕食行为模拟的重要群集智能算法。PSO最开始随机一群随机例子,通过模拟鸟群的行为不断的迭代寻找到最优解。每一次迭代的过程中,都会记录当前的最优解,以及更新历史最优解,并且改变自身的位置以及移动的速度。该算法具有较强的全局搜索能力,并且利于理解实现方式也很简单。作为一种优化工具,有效地利用到了诸多的领域。但它自身也存在缺陷,在遇到局部极值时,粒子的速度迅速降低直到停滞,且很难跳出局部极值点,出现早熟现象,而惯性权重是粒子群算法一个重要参数,用以调节粒子群的搜索能力。
技术实现思路
本专利技术的目的是提供一种粒子群优化的文本特征选择方法,该方法利用粒子很强的局部搜索能力选择出对类别区分能力显著和包含文本信息量多的特征集合,有效地降低文本向量的维度。一种粒子群优化的文本特征选择方法,该方法包括以下具体步骤:1)用分词工具将文本集进行分词,将分词后的词语组成一个词集,作为文本集的原始特征,用T来表示特征集合,集合T中特征的个数为n,即T={t1,t2,...,tn};2)首先,利用式(1)计算特征ti同其他特征之间的平均关系距离Ri,其中p(ti,tj)表示ti,tj共现的概率,即ti,tj共同出现在句子中的次数比上文本集所有词语的数量,p(ti)表示特征ti出现的概率,即特征ti出现的次数同文本集所有词语数量的比值;p(tj)表示特征tj出现的概率,即特征tj出现的次数同文本集所有词语数量的比值;Ri值越高表明该特征同其他特征的关系越大,Ri值越低表明该特征同其他特征越有区别;求得所有特征的R值后,将所有特征按照R值大小进行升序排序,排序后的特征前一半放入不相似组D,后一半放入相似组S中;3)设置总迭代次数iterations,并用k记录当前的迭代次数,测试随机生成数个二进制的粒子x(即粒子的位置)并初始化每个粒子初速度vi,用xi和vi表示为第i个粒子的位置和速度,且都为m维的向量,每个维度的值都是介于(0,1)的随机数;4)根据式(2)来更新粒子的速度,并对更新之后的粒子速度每个维度值限定在(a,b),a和b是自定义参数(设定为a=-4,b=4),具体做法是用vid表示vi的第d维的值,若vid>b,则令vid=b,若vid<a,则令vid=a,其他情况vid不变;其中,用表示每个粒子自身经历过的最佳位置,表示种群粒子经历过的最佳位置,c1和c2是学习因子,通常情况c1=c2=2;r1和r2是[0,1]之间的随机数;由式(3)来更新粒子的位置,并对粒子每个维度值进行改变,具体做法是首先利用式(4)计算s(vid),s(vid)表示一个函数,其中e为自然常数,表示e的-vid次方,然后s(vid)同随机数rand比较,若s(vid)>rand,则将xid=1,否则设为0,这里的xid表示粒子xi第d维的值;其中rand随机初始化的一个值;xi=xi+vi(3)5)根据步骤4),得到粒子xi位置的每个维度值为0或1;由于粒子xi每个维度与特征集合T的特征的对应,根据xi的维度值为1的位置,得到特征子集T′,根据相似特征集合S和不相似特征集D,将T′划分为不相似特征子集D′,以及相似特征子集S′;对粒子中的相似特征和不相似特征的数量进行控制,定义参数α,令nD′=α·n,nS′=(1-α)n,nD′为不相似特征子集D′特征个数的下限,nS′是相似特征子集S′特征个数的上限;当D′中特征的个数小于nD′时,随机挑选D中的特征到D′,直到D′中个数达到nD′,并更新xi,即将xi中对应的维度值修改为1;同理,当S′中特征的个数大于nS′时,随机S中特征剔除,直到S中个数达到nS′,并更新xi,即将xi中对应的维度值修改为0;由上操作,得到更新之后的xi,以及更新之后的T′;6)利用xi所表示特征子集集合T′,用空间向量模型表示文本训练KNN分类器,并计算出分类的准确率将特征选择的适应度函数定义为文本分类的准确率:其中,N表示测试文本集中包含的总样本数,nacc正确分类的测试文本数;7)利用步骤6),根据和计算粒子所表示的特征子集用于分类的准确率以及8)对和进行更新;如果则如果则9)判断当前的迭代次数k是不是小于iteration,若是则跳转到步骤4),否则结束,并输出10)根据中得到最优特征子集。本专利技术的有益效果:本专利技术能够从庞大文本词集中选择出最有利于文本表示的特征子集,从而能为文本的分类、文本处理打下良好的基础。附图说明图1为本专利技术文本分词实例图;图2为相似度特征与不相似特征集计算流程图;图3为本专利技术粒子中相似特征和不相似特征限制图。具体实施方式本专利技术是一种基于粒子群优化的文本特征选择方法,该方法用文本中的特征选择,能够有效地选择出信息量大的特征,从而实现更好地文本表示。一种粒子群优化的文本特征选择方法,该方法包括以下具体步骤:1)用分词工具将文本如图1进行分词,将分词后的词语组成一个词集,作为文本的原始特征,用T来表示特征集合,集合T中特征的个数为n,即T={t1,t2,...,tn}2)首先,利用公式1计算特征ti同其他特征之间的平均关系距离Ri,其中p(ti,tj)表示ti,tj共现的概率,即ti,tj共同出现在句子中的次数比上文本集所有词语的数量,p(ti)表示特征ti出现的概率,即特征ti出现的次数同文本本文档来自技高网
...

【技术保护点】
1.一种粒子群优化的文本特征选择方法,其特征在于,该方法包括以下具体步骤:1)用分词工具将文本集进行分词,将分词后的词语组成一个词集,作为文本集的原始特征,用T来表示特征集合,集合T中特征的个数为n,即T={t1,t2,...,tn};2)首先,利用式(1)计算特征ti同其他特征之间的平均关系距离Ri,

【技术特征摘要】
1.一种粒子群优化的文本特征选择方法,其特征在于,该方法包括以下具体步骤:1)用分词工具将文本集进行分词,将分词后的词语组成一个词集,作为文本集的原始特征,用T来表示特征集合,集合T中特征的个数为n,即T={t1,t2,...,tn};2)首先,利用式(1)计算特征ti同其他特征之间的平均关系距离Ri,其中p(ti,tj)表示ti,tj共现的概率,即ti,tj共同出现在句子中的次数比上文本集所有词语的个数,p(ti)表示特征ti出现的概率,即特征ti出现的次数同文本集所有词语数量的比值;p(tj)表示特征tj出现的概率,即特征tj出现的次数同文本集所有词语数量的比值;Ri值越高表明该特征同其他特征的关系越大,Ri值越低表明该特征同其他特征越有区别;求得所有特征的R值后,将所有特征按照R值大小进行升序排序,排序后的特征前一半放入不相似组D,后一半放入相似组S中;3)设置总迭代次数iterations,并用k记录当前的迭代次数,测试随机生成数个二进制的粒子x即粒子的位置,并初始化每个粒子初速度vi,用xi和vi表示为第i个粒子的位置和速度,且都为m维的向量,每个维度的值都是介于(0,1)的随机数;4)根据式(2)来更新粒子的速度,并对更新之后的粒子速度每个维度值限定在(a,b),a和b是自定义参数,具体做法是用vid表示vi的第d维的值,若vid>b,则令vid=b,若vid<a,则令vid=a,其他情况vid不变;其中,用表示每个粒子自身经历过的最佳位置,表示种群粒子经历过的最佳位置,c1和c2是学习因子;r1和r2是[0,1]之间的随机数;由式(3)来更新粒子的位置,并对粒子每个维度值进行改变,具体做法是首...

【专利技术属性】
技术研发人员:琚小明王锋华钱仲文毛大鹏吴翔邢雅菲张全于晓蝶夏洪涛成敬周王政孙晨王仲锋吕旭芬张旭东张建松
申请(专利权)人:华东师范大学国网浙江省电力有限公司浙江华云信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1