【技术实现步骤摘要】
基于遗传算法的文本数据半监督聚类方法
本申请涉及一种信息处理方法,具体的,涉及一种基于遗传算法的文本数据半监督聚类方法。可以用于电力行业文本数据的聚类分析,以及特征提取、语义扩展搜索等各类文本应用场景。
技术介绍
文本聚类技术是基础性的文本数据处理技术,通过将大量的文本数据投影到一个特定的特征空间,并在特征空间内进行有效的变换,然后以某一标准将不同的文本分属不同的类别,从而实现文本的分类结果。文本聚类与文本分类操作对于进一步的文本处理具有很重要的意义,例如文本特征表达、知识提取、文本检索等。文本聚类技术按照先验知识参与程度的高低可分为三类,即监督聚类、半监督聚类与无监督聚类,即三述三者需要提供的先验知识依次减少,而需要提供的先验知识的减小其代价就是需要投入训练及处理的数据量会急剧增大。相比于监督聚类及无监督聚类,半监督聚类方法能够较好地平衡所需要的原始数据集规模与先验知识规模,即通过提供一定的先验知识,能够非常有效地减小所需要的原始数据的数量,进入有效减少处理原始数据的计算资源、存储资源等资源消耗及。文本聚类分析方法将文本划分为同类子组。传统的文本聚类方法是无监督 ...
【技术保护点】
1.一种基于智能算法的半监督文本聚类方法,包括如下步骤:数据采集步骤S110:采集文本数据,建立待分类的初始文本数据集,初始文本数据集无须标记也无须存在特定的先验知识;文本分词步骤S120:对所有的初始文本数据集中的文本数据进行分词,对词语进行词频统计,即针对每篇文本计算分词结果的出现次数;词频统计步骤S130:计算每篇文档中词语的tf‑idf值,作为每个分词词语的特征权重值;初始聚类步骤S140:根据每篇文本所计算的特征词权重值,建立文本词向量,然后根据词向量之间的相互距离,依照K‑means聚类方法,实现每个文本的初始聚类,即每篇文本都分配进入一个特定类别;遗传算法参数 ...
【技术特征摘要】
1.一种基于智能算法的半监督文本聚类方法,包括如下步骤:数据采集步骤S110:采集文本数据,建立待分类的初始文本数据集,初始文本数据集无须标记也无须存在特定的先验知识;文本分词步骤S120:对所有的初始文本数据集中的文本数据进行分词,对词语进行词频统计,即针对每篇文本计算分词结果的出现次数;词频统计步骤S130:计算每篇文档中词语的tf-idf值,作为每个分词词语的特征权重值;初始聚类步骤S140:根据每篇文本所计算的特征词权重值,建立文本词向量,然后根据词向量之间的相互距离,依照K-means聚类方法,实现每个文本的初始聚类,即每篇文本都分配进入一个特定类别;遗传算法参数选定步骤S150:选择遗传算法的关键运行参数设置,包括交叉率、变异率、选择算子;遗传算法价值函数设置步骤S160:对每个聚类类别中的所有分词进行统计,并根据词频降序排序,取出前5%的分词或前50个分词,计算每篇文本中这些词语之间的最短距离,并将距离归一化,取其倒数作为遗传算法的价值函数取值;遗传算法迭代步骤S170:将每一聚类类别作为遗传个体,将这些个体按照遗传算法的操作原则,进行选择、交叉与变异,实现反复迭代;遗传算法迭代终止步骤S180:待所有个体适应度高于预定的标准或者迭代次数超过预定次数,则终止遗传迭代,将得到的聚类结果作为当前接受的结果。2.根据权利要求1所述的基于智能算法的半监督文本聚类方法,其特征在于:在步骤S180后还具有:人工审核校验步骤S190:通过人机交互的方式,对已聚类的文本进行审阅,根据经验知识,改正一些文本的类别;遗传算法吸收经验知识步骤S195:根据人机交互后改正的文本聚类结果,重新运行遗传算法s160至S170,直到达到终止条件。3.根据权利要求2所述的基于智能算法的半监督文本聚类...
【专利技术属性】
技术研发人员:马文,张新阳,李辉,
申请(专利权)人:云南电网有限责任公司信息中心,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。