一种文本特征的选择方法及系统技术方案

技术编号：18289641 阅读：41 留言：0更新日期：2018-06-24 04:24

本发明专利技术公开一种文本特征的选择方法及系统。该方法包括：获取待选择的多个文本特征；初始化鲸鱼算法的参数，所述参数包括：种群规模、对数螺旋形状常数和终止条件；对所述多个文本特征并行采用鲸鱼算法进行选择，获得多个并行的最优解；将所述多个并行的最优解整合，得到所述文本特征的选择结果。采用本发明专利技术的方法及系统，实现对文本特征选择的高效求解。并且为了提高文本分类系统的效率，引入分布式平台，文本数据能够分布存储在分布式平台上，容量空间得到扩充，能够并行地读写数据，有效地缓解读写接口速度过慢的问题，还能并行地进行处理，提高了处理的效率。这样，文本分类系统的效率问题能够很好的解决。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本特征的选择方法及系统
本专利技术涉及文本处理领域，特别是涉及一种文本特征的选择方法及系统。
技术介绍
信息技术的发展使得信息量呈爆炸式增长，大量信息以文本的形式不断增加。作为组织和处理大量文本数据的关键技术，文本分类在垃圾邮件过滤、舆情监测以及数字图书馆等许多领域都有着广泛的应用。在对大量文本进行分类之前，需要进行文本的预处理、特征选择以及向量化等过程。文本分类问题面对的是高维数据，对于大多数的分类算法来说会因为计算量过大或者耗费资源过多而失去可行性。因此在实际应用中，一般会对文本特征进行选择以约减特征向量的维度。文本特征选择(featureselection)是指从原始特征集中选取数量规模比较小的特征集合，替代原始特征集进行文本分类的过程。一个典型的特征选择过程常由4个步骤组成，分别为：子集生成(subsetgeneration)、子集评价(subsetevaluation)、终止条件(stoppingcriterion)和结果评估(resultvalidation)。首先根据预先设定的搜索策略得到候选特征子集，然后对每个候选子集根据评价准则进行衡量。重复生成-评价过程，直至终止条件满足。最后基于先验知识或与初始特征集比较，对最优特征子集进行验证以考察其正确性。数据正在迅速膨胀并变大，文本信息数据的不断增加。当文本信息数据量大时，文本特征选择过程需要大量计算，计算时间长、内存消耗大，而且文本特征选择采用单机执行导致计算时间漫长，且求解精度低。
技术实现思路
本专利技术的目的是提供一种文本特征的选择方法及系统，以缩短求解的时间，提高求解的精度。为实现上...

【技术保护点】
1.一种文本特征的选择方法，其特征在于，所述方法包括：获取待选择的多个文本特征；初始化鲸鱼算法的参数，所述参数包括：种群规模、对数螺旋形状常数和终止条件；对所述多个文本特征并行采用鲸鱼算法进行选择，获得多个并行的最优解；将所述多个并行的最优解整合，得到所述文本特征的选择结果。

【技术特征摘要】
1.一种文本特征的选择方法，其特征在于，所述方法包括：获取待选择的多个文本特征；初始化鲸鱼算法的参数，所述参数包括：种群规模、对数螺旋形状常数和终止条件；对所述多个文本特征并行采用鲸鱼算法进行选择，获得多个并行的最优解；将所述多个并行的最优解整合，得到所述文本特征的选择结果。2.根据权利要求1所述的方法，其特征在于，所述获取待选择的多个文本特征，之前还包括：对训练文本进行分词处理；采用卡方检验CHI对分词后的文本特征进行预处理，得到待选择的多个文本特征，所述待选择的多个文本特征按照所述卡方检验CHI值的高低降序排列。3.根据权利要求1所述的方法，其特征在于，所述初始化鲸鱼算法的参数，所述参数包括：种群规模、对数螺旋形状常数和终止条件，具体包括：确定鲸鱼算法中鲸鱼的个数和每个鲸鱼的规模，所述每个鲸鱼的规模包括每个鲸鱼的维数和每一维对应的文本特征的个数；确定鲸鱼算法中对数螺旋形状常数；确定所述终止条件，所述终止条件包括最大迭代次数和适应度阈值；当所述鲸鱼算法的迭代次数到达所述最大迭代次数或者当次迭代后获得的目前为止最优的鲸鱼位置向量的适应度值大于所述适应度阈值，所述鲸鱼算法终止。4.根据权利要求3所述的方法，其特征在于，所述确定鲸鱼算法中鲸鱼的个数和每个鲸鱼的规模，具体包括：确定并行参数，所述并行参数为并行的节点数；根据所述并行参数确定每个并行的节点待选择的文本特征个数m；确定每个并行的节点上鲸鱼算法中鲸鱼的个数和鲸鱼的维数n；利用公式获得每个鲸鱼的每一维对应的文本特征的个数k。5.根据权利要求4所述的方法，其特征在于，所述确定鲸鱼算法中鲸鱼的个数和每个鲸鱼的规模，之后还包括：根据所述每一维对应的文本特征的个数随机生成每一维对应的初值；每一维对应的初值范围为[0,2k-1]，其中k为每一维对应的文本特征的个数。6.根据权利要求1所述的方法，其特征在于，所述对所述多个文本特征并行采用鲸鱼算法进行选择，获得多个并行的最优解，具体包括：获取随机变量p和状态变量A的值；所述随机变量p为(0,1)之间的随机数；所述状态变量A＝2ar1-a，其中a＝2-2t/Tmax，r1是(0,1)中的随机数，t表示当前的迭代次数，Tmax为最大迭代次数；判断所述随机变量p是否小于设定概率值Pi，得到第一判断结果；当所述第一判断结果表示所述随机变量p小于设定概率值Pi时，判断所述状态变量A是否小于1，得到第二判断结果；当所述第二判断结果表示所述状态变量A小于1时，利用公式X(t+1)＝X*(t)-AD1更新鲸鱼的空间位置；其中D1＝|CX*(t)-X(t)|，C＝2r2，r2是(0,1)中的随机数，X*(t)表示目前为止最优的鲸鱼位置向量，X(t)表示当前鲸鱼的位置向量，X(t+1)表示更新后鲸鱼的位置向量；当所述第二判断结果表示所述状态变量A不小于1时，利用公式X(t+1)＝Xrand-AD2更新鲸鱼的空间位置；其中D2＝|CXrand-X(t)|，Xrand是随机选择的鲸鱼位置向量；当所述第一判断结果表示所述随机变量p不小于设定概率值Pi时，利用公式X(t+1)＝X*(t)+Dpeblcos(2πl)更新鲸鱼的空间位置；其中，Dp＝|X*(t)-X(t)|表示当前鲸鱼和猎物之间的距离，b为对数螺旋形状常数，l是(-1,1)中的随机数；根据鲸鱼更新后的空间位置更新目前为止最优的鲸鱼位置向量X*(t+1)；判断是否满足终止条件；如果是，将所述目前为止最优的鲸鱼位置向量X*(t+1)确定为最优解；如果否，进入下一次迭代。7.根据权利要求6所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：陈宏伟，
申请(专利权)人：湖北工业大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人