System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于进化算法的文本特征选择方法及系统技术方案_技高网

一种基于进化算法的文本特征选择方法及系统技术方案

技术编号:40651766 阅读:4 留言:0更新日期:2024-03-13 21:29
本发明专利技术公开了一种基于进化算法的文本特征选择方法及系统。该基于进化算法的文本特征选择方法,包括以下步骤:得到文本的特征集合;根据特征集合构成初始种群;分析适应程度评估指数;生成目标种群;分析目标适应度指数;得到新种群;将新种群作为初始种群;重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止并输出最佳特征组合。本发明专利技术通过重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,从而输出最佳特征组合,达到了高效准确地进行特征选择的效果,解决了现有技术中存在不能高效准确地进行特征选择的问题。

【技术实现步骤摘要】

本专利技术涉及数据挖掘,尤其涉及一种基于进化算法的文本特征选择方法及系统


技术介绍

1、随着互联网的普及,文本数据量急剧增加,如何从海量文本数据中自动提取有用信息成为一项重要任务。文本分类是文本数据挖掘和文本价值探索领域的重要工作。传统的文本分类系统存在特征提取能力弱、分类准确率不高的问题。随着互联网技术的发展,网络成为人们进行信息交互和处理的有效平台,各种数字化的信息每天以极高的速度增长。面对如此巨大的信息,人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择。文本特征选择是文本挖掘中的关键步骤,其目的是从原始文本中选取具有较高分类性能的特征,降低文本数据的维度,提高分类准确性和效率。目前,常用的文本特征选择方法有文档频率、信息增益、互信息和特征权等。然而,这些方法在实际应用中存在一定的局限性,如忽视特征之间的相关性、受噪声数据影响较大等。

2、现有的文本特征选择系统通过计算文本特征的文档频率、信息增益、互信息和特征权等并进行综合分析,将有利于文本分类的文本特征进行选择,实现文本特征选择功能。

3、例如公告号为:cn106503146b的专利技术专利公告的一种计算机文本的特征选择方法、分类特征选择方法及系统,包括:步骤s1,对计算机文本进行处理,得到文本的三维特征数据集;步骤s2,计算所述文本的三维特征数据集的重构系数矩阵,并且计算信息熵向量;步骤s3,按照所述信息熵向量以及所述重构系数矩阵计算综合度量指标,并且按照所述综合度量指标从小到大的顺序进行特征选择;以及步骤s4,输出经过特征选择获得的文本特征集。

4、例如公告号为:cn107016073b的专利技术专利公告的一种文本分类特征选择方法,包括:获取特征集s和目标类别c,计算特征集s中每一个特征x(i)与目标类别c之间的关联度rc(x(i)),并按照关联度rc(x(i))大小对特征集s进行降序排序;计算特征集s中每两个特征之间的冗余度rx和协同度sx,结合特征与目标类别之间的关联度rc(x(i))计算特征的灵敏度sen,并将其与预先设定的阈值th比较,结合对特征集s的降序排序结果,按照阈值th将特征集s划分为候选集ssel和排除集sexc;计算候选集ssel和排除集sexc中的特征之间的灵敏度sen,并将其与预先设定的阈值th比较,按照阈值th对候选集ssel和排除集sexc进行调整。

5、但本申请在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:

6、现有技术中,由于进行文本特征选择时特征数量过多,存在不能高效准确地进行特征选择的问题。


技术实现思路

1、本申请实施例通过提供一种基于进化算法的文本特征选择方法及系统,解决了现有技术中,不能高效准确地进行特征选择的问题,实现了准确高效地找出用于文本特征选择的最佳特征。

2、本申请实施例提供了一种基于进化算法的文本特征选择方法,包括以下步骤:对原始文本数据进行预处理,得到文本的特征集合;根据特征集合构成初始种群;分析初始种群中特征组合的适应程度评估指数,所述适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据;将初始种群的特征组合进行交叉和变异操作,生成目标种群;分析目标种群的目标特征组合的目标适应度指数,所述目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据;根据目标适应度指数和适应程度评估指数得到新种群;将新种群作为初始种群;重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,并输出最佳特征组合。

3、进一步的,所述对原始文本数据进行预处理,得到文本的特征集合的具体过程为:对原始文本数据进行预处理,所述预处理包括文本标准化、分词、去停用词、词性标注和特征选择,并将所有特征构成一个集合,得到文本的特征集合;所述文本标准化用于将文本中的所有字母转换为小写以保证一致性;处理文本中的数字;删除文本中的标点符号、重音符号以及其他变音符号;所述分词用于将连续的字序列按照一定的规范重新组合成词序列;所述去停用词用于将在文本中频繁出现但对于特征选择无实际意义的词从文本中移除;所述词性标注用于将文本中的每个词分配一个词性标签;所述特征选择用于从文本中提取出最能代表文本特性的词或短语。

4、进一步的,所述适应程度评估指数具体分析过程为:通过计算特征在原始文本出现次数与原始文本特征合集中所有特征出现总次数的比值以及特征在初始种群的特征组合中的特征出现次数与特征组合数量数据的比值,并进行综合分析得到适应程度评估指数。

5、进一步的,所述目标适应度指数具体分析过程为:通过计算目标特征组合中特征在原始文本出现次数与原始文本特征合集中所有特征出现总次数的比值以及目标特征组合中特征出现次数的比值,并进行综合分析得到目标适应度指数。

6、进一步的,所述根据目标适应度指数和适应程度评估指数得到新种群的具体过程为:在每一次迭代时,计算初始种群中特征组合的适应程度评估指数和目标种群的目标特征组合的目标适应度指数,将适应程度评估指数和目标适应度指数进行比较,将适应程度评估指数和目标适应度指数中最大指数的保留,并将该指数对应的种群作为新种群。

7、进一步的,所述当达到预设的迭代次数时停止,并输出最佳特征组合的具体过程为:预设迭代次数为n次,将计算初始种群中特征组合的适应程度评估指数到将新种群作为初始种群过程重复n次,将最后一次重复结束时得到的新种群作为初始种群,该初始种群的特征组合即为最佳特征组合。

8、进一步的,所述初始种群的具体获取过程为:从特征集合中随机选择一定数量的特征构成特征组合,将一定数量的特征组合构成初始种群;将特征集合中的特征进行编号,,表示为特征集合中的特征总数,特征集合表示为,从特征集合中随机选择一定数量的特征构成特征组合,将特征组合的特征进行编号,,表示为特征组合的特征数量,将特征组合进行编号,,表示为特征组合总数,第个特征组合表示为,特征组合构成初始种群,初始种群表示为;所述目标种群的相关内容具体为:将目标特征组合进行编号,,表示为目标特征组合总数,将目标特征组合中的特征进行编号,,表示目标特征组合中特征总数,第个目标特征组合表示为,目标特征组合构成目标种群,目标种群表示为。

9、进一步的,所述适应程度评估指数的具体计算公式为:

10、,式中,表示为适应程度评估指数,表示为第个特征组合中第个特征的特征在原始文本出现次数,,表示为特征组合的特征数量,,表示为特征组合总数,表示为原始文本特征合集中所有特征出现总次数,表示为第个特征组合中第个特征在初始种群的特征组合中的特征出现次数,表示为特征组合数量数据,和分别表示为特征在原始文本出现次数和特征出现次数在适应程度评估指数中所占权重比例。

11、进一步的,所述目标适应度指数的具体计算公式为:

12、,式中,表示为目标适应度指数,表示为第个目标特征组合中第个特征的目标特征组合中本文档来自技高网...

【技术保护点】

1.一种基于进化算法的文本特征选择方法,其特征在于,包括以下步骤:

2.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述对原始文本数据进行预处理,得到文本的特征集合的具体过程为:

3.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述适应程度评估指数具体分析过程为:

4.如权利要求3所述基于进化算法的文本特征选择方法,其特征在于,所述目标适应度指数具体分析过程为:

5.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述根据目标适应度指数和适应程度评估指数得到新种群的具体过程为:

6.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述当达到预设的迭代次数时停止,并输出最佳特征组合的具体过程为:

7.如权利要求4所述基于进化算法的文本特征选择方法,其特征在于,所述初始种群的具体获取过程为:

8.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述适应程度评估指数的具体计算公式为:

9.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述目标适应度指数的具体计算公式为:

10.一种基于进化算法的文本特征选择系统,其特征在于,所述基于进化算法的文本特征选择系统包括:预处理模块、构建模块、适应程度评估指数分析模块、交叉变异模块、目标适应度指数分析模块、新种群模块、更新模块和迭代模块;

...

【技术特征摘要】

1.一种基于进化算法的文本特征选择方法,其特征在于,包括以下步骤:

2.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述对原始文本数据进行预处理,得到文本的特征集合的具体过程为:

3.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述适应程度评估指数具体分析过程为:

4.如权利要求3所述基于进化算法的文本特征选择方法,其特征在于,所述目标适应度指数具体分析过程为:

5.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述根据目标适应度指数和适应程度评估指数得到新种群的具体过程为:

6.如权利要求1所述基于进化算法的文本特征选择方法,...

【专利技术属性】
技术研发人员:李景甘克勤张明
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1