粒子群优化的文本特征选择方法技术

技术编号：19177476 阅读：78 留言：0更新日期：2018-10-17 00:23

本发明专利技术公开了一种基于粒子群优化的文本特征选择方法，该方法是为了解决采用空间向量模型表示文本出现文本特征向量高维且稀疏的问题，本发明专利技术将局部搜索策略嵌入到粒子群优化算法中选择出不相关和显著的特征子集，通过考虑粒子群的相关信息来指导粒子群算法在搜索过程中选择不同的特征，从而从原始特征中选择出更加有利于分类准确率的特征。本发明专利技术能够从庞大文本词集中选择出最有利于文本表示的特征子集，从而能为文本的分类、文本处理打下良好的基础。

Text feature selection method based on particle swarm optimization

The invention discloses a text feature selection method based on particle swarm optimization. The method aims to solve the problem of high-dimensional and sparse text feature vectors represented by space vector model. The local search strategy is embedded in particle swarm optimization algorithm to select unrelated and significant feature subsets. Particle swarm optimization (PSO) is guided to select different features in the process of searching by considering the relevant information of particle swarm optimization (PSO). The invention can select the feature subset which is most favorable for text representation from the huge text word set, thereby laying a good foundation for text classification and text processing.

全部详细技术资料下载

【技术实现步骤摘要】
粒子群优化的文本特征选择方法
本专利技术涉及自然语言处理领域，具体地说是一种基于粒子群优化算法的特征选择方法(PSO-FS)，应用于文本的特征选择中，选择出有效的特征从而更好地表示文本。
技术介绍
在大数据时代，数据产生日益庞大，从大量的数据中获得有用的信息变得更加复杂。利用人工的方法对数据进行处理则在大数据时代，产生的数据日益庞大，从大量的数据中获得有用的信息变得更加复杂。利用人工的方式对数据进行处理则难度很大，所以自然而言地想到利用机器来处理数据。文本分类是指对文本进行特征选择以及分析，将文本特征属性最相似的归为一类的过程。文本分类包括以下的几个步骤：分词、去停用词、特征选择、向量空间模型表示、训练分类器并且分类。文本大多数内容都是自然语言表示，与机器语言不同，因此需要将原始文本进行转换。VSM是将文本利用空间向量模型进行表示，若将分词所得的词语作为特征项，则向量维度庞大，这不仅给计算带来了复杂度，并且分词所得词语中有大量的无用信息，也对分类带来干扰，因此选择有效地文本特征项并且控制特征项的数量是极其关键的一步。特征选择是指通过一定的特征计算方法，从总的特征集合中选择出具有文本区分度强度的特征为特征项。特征选择对文本处理有着多种的意义：(1)特征选择能提高模型的预测性能，有效地提高准确率。(2)对模型的训练时间和预测的时间都有所减少，提高整体的效能。(3)揭示了数据中隐含意义以及数据的产生过程。简单来说就是特征选择使得从数据集中选择出最有效地特征，更好地对数据进行理解。特征选择出的有效特征集越小，使得表示是维度降低，降低了模型的学习成本。现有文档频率(...

【技术保护点】
1.一种粒子群优化的文本特征选择方法，其特征在于，该方法包括以下具体步骤：1)用分词工具将文本集进行分词，将分词后的词语组成一个词集，作为文本集的原始特征，用T来表示特征集合，集合T中特征的个数为n，即T＝{t1，t2，...，tn}；2)首先，利用式(1)计算特征ti同其他特征之间的平均关系距离Ri，

【技术特征摘要】
1.一种粒子群优化的文本特征选择方法，其特征在于，该方法包括以下具体步骤：1)用分词工具将文本集进行分词，将分词后的词语组成一个词集，作为文本集的原始特征，用T来表示特征集合，集合T中特征的个数为n，即T＝{t1，t2，...，tn}；2)首先，利用式(1)计算特征ti同其他特征之间的平均关系距离Ri，其中p(ti，tj)表示ti，tj共现的概率，即ti，tj共同出现在句子中的次数比上文本集所有词语的个数，p(ti)表示特征ti出现的概率，即特征ti出现的次数同文本集所有词语数量的比值；p(tj)表示特征tj出现的概率，即特征tj出现的次数同文本集所有词语数量的比值；Ri值越高表明该特征同其他特征的关系越大，Ri值越低表明该特征同其他特征越有区别；求得所有特征的R值后，将所有特征按照R值大小进行升序排序，排序后的特征前一半放入不相似组D，后一半放入相似组S中；3)设置总迭代次数iterations，并用k记录当前的迭代次数，测试随机生成数个二进制的粒子x即粒子的位置，并初始化每个粒子初速度vi，用xi和vi表示为第i个粒子的位置和速度，且都为m维的向量，每个维度的值都是介于(0，1)的随机数；4)根据式(2)来更新粒子的速度，并对更新之后的粒子速度每个维度值限定在(a，b)，a和b是自定义参数，具体做法是用vid表示vi的第d维的值，若vid＞b，则令vid＝b，若vid＜a，则令vid＝a，其他情况vid不变；其中，用表示每个粒子自身经历过的最佳位置，表示种群粒子经历过的最佳位置，c1和c2是学习因子；r1和r2是[0，1]之间的随机数；由式(3)来更新粒子的位置，并对粒子每个维度值进行改变，具体做法是首...

【专利技术属性】
技术研发人员：琚小明，王锋华，钱仲文，毛大鹏，吴翔，邢雅菲，张全，于晓蝶，夏洪涛，成敬周，王政，孙晨，王仲锋，吕旭芬，张旭东，张建松，
申请(专利权)人：华东师范大学，国网浙江省电力有限公司，浙江华云信息科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人