文本特征向量的确定方法及系统、文本分类方法及系统技术方案

技术编号:18445141 阅读:40 留言:0更新日期:2018-07-14 10:28
本发明专利技术公开一种文本特征向量的确定方法及系统、文本分类方法及系统。确定方法包括:获取训练文本集;采用卡方检验方法提取文本特征;构建水波群并初始化;选出当前最优水波并判断适应度值是否小于适应度阈值;若否,确定最优文本特征向量;若是,进行传播处理并计算适应度值;判断水波适应度值是否增大;若是,用传播处理后的水波代替传播处理前的水波;否则保留传播处理前的水波;根据各第二判断结果更新水波群及迭代次数,并重新确定当前最优水波;判断迭代次数是否小于迭代阈值;若是则判断当前最优水波的适应度值是否达到适应度阈值;否则确定最优文本特征向量。本发明专利技术提供的方法及系统能够在保证分类的精度的前提下降低文本特征向量的维数。

Text feature vector determination method and system, text classification method and system

The invention discloses a method for determining a text feature vector, a system, a text classification method and a system. The method includes: obtaining the training text set; using the chi square test method to extract the text feature; constructing the water wave group and initializing; selecting the current optimal water wave and judging whether the fitness value is less than the fitness threshold; if not, the optimal text feature vector is determined; if, carry on the transmission treatment and calculate the fitness value; judge the water. Whether the value of the wave fitness increases; if the wave after propagation is used instead of the water wave before the propagation treatment, the water wave before the propagation treatment is retained; the water wave group and the number of iterations are updated according to the second judgment results, and the optimal water wave is redetermined; whether the number of iterations is less than the iterative threshold is judged; if then, it is judged as if the wave is less than the iterative threshold. Whether the fitness value of the pre optimal water wave reaches the fitness threshold or not, determines the optimal text feature vector. The method and system provided by the invention can reduce the dimension of the text feature vector on the premise of guaranteeing the accuracy of the classification.

【技术实现步骤摘要】
文本特征向量的确定方法及系统、文本分类方法及系统
本专利技术涉及文本挖据领域,特别是涉及一种文本特征向量的确定方法及系统、文本分类方法及系统。
技术介绍
中文文本分类中,用向量空间模型表示经过处理的中文文本时,向量空间的维数一般都比较高。在实际分类过程中,高维的特征空间中并不是每一维特征都对分类结果有贡献,相反,贡献不大的特征不仅会给分类学习算法增加学习负担,而且还会降低分类器的分类精度。因此,如何在保证分类精度的前提下降低文本特征向量的维数,成为本领域技术人员亟需解决的技术问题。
技术实现思路
本专利技术的目的是提供一种文本特征向量的确定方法及系统、文本分类方法及系统,能够在保证分类的精度的前提下降低文本特征向量的维数。为实现上述目的,本专利技术提供了如下方案:一种文本特征向量的确定方法,所述确定方法包括:获取训练文本集,所述训练文本集包括若干训练文本;采用卡方检验方法提取每个所述训练文本的文本特征;根据各个所述训练文本的文本特征生成预选文本特征集,所述预选文本特征集包括若干预选文本特征;构建包括若干多维水波的水波群,并初始化各所述多维水波的位置、波高和波长,其中,每个所述多维水波的位置对应一个所述预选文本特征集的文本特征向量;计算所述水波群中每个多维水波的适应度值,并选出适应度值最大的多维水波作为当前最优水波;判断所述当前最优水波的适应度值是否大于或者等于适应度阈值,获得第一判断结果;若所述第一判断结果表示所述当前最优水波的适应度值大于或者等于适应度阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量;若所述第一判断结果表示所述当前最优水波的适应度值小于适应度阈值,则对所述水波群中的各所述多维水波进行传播处理,并计算所述传播处理后的多维水波的适应度值;判断所述传播处理后的多维水波的适应度值是否大于所述传播处理前的多维水波的适应度值,获得第二判断结果;若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第二判断结果表示传播处理后的多维水波的适应度值小于或者等于传播处理前的多维水波的适应度值,则保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;根据各个所述第二判断结果更新所述水波群,并更新所述水波群的迭代次数;计算更新后的所述水波群中的每个多维水波的适应度值,并将更新后的适应度值最大的多维水波作为当前最优水波;判断所述迭代次数是否小于迭代阈值,获得第三判断结果;若所述第三判断结果表示所述迭代次数小于迭代阈值,则返回所述步骤“判断所述当前最优水波的适应度值是否大于或者等于适应度阈值”;若所述第三判断结果表示所述迭代次数大于或者等于迭代阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量。可选的,所述根据各个所述第二判断结果更新所述水波群,并更新所述水波群的迭代次数,具体包括:若所述第二判断结果表示传播处理后的多维水波的适应度值小于或者等于传播处理前的多维水波的适应度值,则保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则判断所述传播处理后的多维水波的适应度值是否大于所述当前最优水波的适应度值,得到第四判断结果;若所述第四判断结果表示所述传播处理后的多维水波的适应度值小于或者等于所述当前最优水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第四判断结果表示所述传播处理后的多维水波的适应度值大于所述当前最优水波的适应度值,则对传播处理后的多维水波进行碎浪处理,获得多个子波;计算每个所述子波的适应度值,选出适应度值最大的子波作为最优子波;判断所述最优子波的适应度值是否大于所述传播处理后的多维水波的适应度值,获得第五判断结果;若所述第五判断结果表示所述最优子波的适应度值大于所述传播处理后的多维水波的适应度值,则用所述最优子波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第五判断结果表示所述最优子波的适应度值小于或者等于所述传播处理后的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;根据所述第二判断结果、第四判断结果以及第五判断结果更新所述水波群,并更新所述水波群的迭代次数。可选的,保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波,具体包括:将所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波的波高减1,得到波高减1后的多维水波;判断所述波高减1后的多维水波的波高是否大于0,得到第六判断结果;若所述第六判断结果表示所述波高减1后的多维水波的波高大于0,则保留所述波高减1后的多维水波;若所述第六判断结果表示所述波高减1后的多维水波的波高等于0,则对所述波高减1后的多维水波进行折射处理,得到折射处理后的多维水波,并用折射处理后的多维水波代替所述波高减1后的多维水波。可选的,所述计算所述水波群中每个多维水波的适应度值,具体包括:获取测试文本集,所述测试文本集包括若干分类类型已知的测试文本;根据所述多维水波的位置确定所述预选文本特征集的特征向量;根据所述特征向量对所述测试文本集的各个测试文本进行分类;根据公式:计算多维水波的适应度值,其中,Fitness表示适应度值,M′表示分类正确的测试文本的数量,M表示测试文本集包括的测试文本的总数。一种文本特征向量的确定系统,所述确定系统包括:训练集获取模块,用于获取训练文本集,所述训练文本集包括若干训练文本;卡方检验模块,用于采用卡方检验方法提取每个所述训练文本的文本特征;预选特征集生成模块,用于根据各个所述训练文本的文本特征生成预选文本特征集,所述预选文本特征集包括若干预选文本特征;水波群初始化模块,用于构建包括若干多维多维水波的水波群,并随机初始化各所述多维水波的位置、波高和波长,其中,每个所述多维水波的位置对应一个所述预选文本特征集的文本特征向量;适应度计算模块,用于计算所述水波群中每个多维水波的适应度值,并选出适应度值最大的多维水波作为当前最优水波;第一判断模块,用于判断所述当前最优水波的适应度值是否大于或者等于适应度阈值,获得第一判断结果;最优特征向量确定模块,用于若所述第一判断结果表示所述当前最优水波的适应度值大于或者等于适应度阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量;传播处理后适应度计算模块,用于若所述第一判断结果表示所述当前最优水波的适应度值小于适应度阈值,则对所述水波群中的各所述多维水波进行传播处理,并计算所述传播处理后的多维水波的适应度值;第二判断模块,用于判断所述传播处理后的多维水波的适应度值是否大于所述传播处理前的多维水波的适应度值,获得第二判断结果;第二判断结果处理模块,用于若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波本文档来自技高网...

【技术保护点】
1.一种文本特征向量的确定方法,其特征在于,所述确定方法包括:获取训练文本集,所述训练文本集包括若干训练文本;采用卡方检验方法提取每个所述训练文本的文本特征;根据各个所述训练文本的文本特征生成预选文本特征集,所述预选文本特征集包括若干预选文本特征;构建包括若干多维水波的水波群,并初始化各所述多维水波的位置、波高和波长,其中,每个所述多维水波的位置对应一个所述预选文本特征集的文本特征向量;计算所述水波群中每个多维水波的适应度值,并选出适应度值最大的多维水波作为当前最优水波;判断所述当前最优水波的适应度值是否大于或者等于适应度阈值,获得第一判断结果;若所述第一判断结果表示所述当前最优水波的适应度值大于或者等于适应度阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量;若所述第一判断结果表示所述当前最优水波的适应度值小于适应度阈值,则对所述水波群中的各所述多维水波进行传播处理,并计算所述传播处理后的多维水波的适应度值;判断所述传播处理后的多维水波的适应度值是否大于所述传播处理前的多维水波的适应度值,获得第二判断结果;若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第二判断结果表示传播处理后的多维水波的适应度值小于或者等于传播处理前的多维水波的适应度值,则保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;根据各个所述第二判断结果更新所述水波群,并更新所述水波群的迭代次数;计算更新后的所述水波群中的每个多维水波的适应度值,并将更新后的适应度值最大的多维水波作为当前最优水波;判断所述迭代次数是否小于迭代阈值,获得第三判断结果;若所述第三判断结果表示所述迭代次数小于迭代阈值,则返回所述步骤“判断所述当前最优水波的适应度值是否大于或者等于适应度阈值”;若所述第三判断结果表示所述迭代次数大于或者等于迭代阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量。...

【技术特征摘要】
1.一种文本特征向量的确定方法,其特征在于,所述确定方法包括:获取训练文本集,所述训练文本集包括若干训练文本;采用卡方检验方法提取每个所述训练文本的文本特征;根据各个所述训练文本的文本特征生成预选文本特征集,所述预选文本特征集包括若干预选文本特征;构建包括若干多维水波的水波群,并初始化各所述多维水波的位置、波高和波长,其中,每个所述多维水波的位置对应一个所述预选文本特征集的文本特征向量;计算所述水波群中每个多维水波的适应度值,并选出适应度值最大的多维水波作为当前最优水波;判断所述当前最优水波的适应度值是否大于或者等于适应度阈值,获得第一判断结果;若所述第一判断结果表示所述当前最优水波的适应度值大于或者等于适应度阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量;若所述第一判断结果表示所述当前最优水波的适应度值小于适应度阈值,则对所述水波群中的各所述多维水波进行传播处理,并计算所述传播处理后的多维水波的适应度值;判断所述传播处理后的多维水波的适应度值是否大于所述传播处理前的多维水波的适应度值,获得第二判断结果;若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第二判断结果表示传播处理后的多维水波的适应度值小于或者等于传播处理前的多维水波的适应度值,则保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;根据各个所述第二判断结果更新所述水波群,并更新所述水波群的迭代次数;计算更新后的所述水波群中的每个多维水波的适应度值,并将更新后的适应度值最大的多维水波作为当前最优水波;判断所述迭代次数是否小于迭代阈值,获得第三判断结果;若所述第三判断结果表示所述迭代次数小于迭代阈值,则返回所述步骤“判断所述当前最优水波的适应度值是否大于或者等于适应度阈值”;若所述第三判断结果表示所述迭代次数大于或者等于迭代阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量。2.根据权利要求1所述的确定方法,其特征在于,所述根据各个所述第二判断结果更新所述水波群,并更新所述水波群的迭代次数,具体包括:若所述第二判断结果表示传播处理后的多维水波的适应度值小于或者等于传播处理前的多维水波的适应度值,则保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则判断所述传播处理后的多维水波的适应度值是否大于所述当前最优水波的适应度值,得到第四判断结果;若所述第四判断结果表示所述传播处理后的多维水波的适应度值小于或者等于所述当前最优水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第四判断结果表示所述传播处理后的多维水波的适应度值大于所述当前最优水波的适应度值,则对传播处理后的多维水波进行碎浪处理,获得多个子波;计算每个所述子波的适应度值,选出适应度值最大的子波作为最优子波;判断所述最优子波的适应度值是否大于所述传播处理后的多维水波的适应度值,获得第五判断结果;若所述第五判断结果表示所述最优子波的适应度值大于所述传播处理后的多维水波的适应度值,则用所述最优子波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;若所述第五判断结果表示所述最优子波的适应度值小于或者等于所述传播处理后的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;根据所述第二判断结果、第四判断结果以及第五判断结果更新所述水波群,并更新所述水波群的迭代次数。3.根据权利要求2所述的确定方法,其特征在于,保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波,具体包括:将所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波的波高减1,得到波高减1后的多维水波;判断所述波高减1后的多维水波的波高是否大于0,得到第六判断结果;若所述第六判断结果表示所述波高减1后的多维水波的波高大于0,则保留所述波高减1后的多维水波;若所述第六判断结果表示所述波高减1后的多维水波的波高等于0,则对所述波高减1后的多维水波进行折射处理,得到折射处理后的多维水波,并用折射处理后的多维水波代替所述波高减1后的多维水波。4.根据权利要求1所述的确定方法,其特征在于,所述计算所述水波群中每个多维水波的适应度值,具体包括:获取测试文本集,所述测试文本集包括若干分类类型已知的测试文本;根据所述多维水波的位置确定所述预选文本特征集的特征向量;根据所述特征向量对所述测试文本集的各个测试文本进行分类;根据公式:计算多维水波的适应度值,其中,Fitness表示适应度值,M′表示分类正确的测试文本的数量,M表示测试文本集包括的测试文本的总数。5.一种文本特征向量的确定系统,其特征在于,所述确定系统包括:训练集获取模块,用于获取训练文本集,所述训练文本集包括若干训练文本;卡方检验模块,用于采用卡方检验方法提取每个所述训练文本的文本特征;预选特征集生成模块,用于根据各个所述训练文本的文本特征生成预选文本特征集,所述预选文本特征集包括若干预选文本特征;水波群初始化模块,用于构建包括若干多维多维水波的水波群,并随机初始化各所述多维水波的位置、波高和波长,其中,每个所述多维水波的位置对应一个所述预选文本特征集的文本特征向量;适应度计算模块,用于计算所述水波群中每个多维水波的适应度值,并选出适应度值最大的多维水波作为当前最优水波;第一判断模块,用于判断所述当前最优水波的适应度值是否大于或者等于适应度阈值,获得第一判断结果;最优特征向量确定模块,用于若所述第一判断结果表示...

【专利技术属性】
技术研发人员:陈宏伟侯亚君宗欣露叶志伟罗启星胡周韩麟符恒
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1