【技术实现步骤摘要】
一种基于KNN的文本分类方法、装置、电子设备和介质
[0001]本申请涉及文本分类的
,尤其是涉及一种基于KNN的文本分类方法、装置、电子设备和介质。
技术介绍
[0002]文本分类是指按照预先定义的主题类别,根据信息内容将不同的信息划分到与其相关的类别中,有助于信息检索和分析,方便用户快速、准确地定位所需要的信息。
[0003]KNN算法是最早应用于自动文本分类的机器学习算法之一,根据待分类文本提取多个待分类数据,当对每个待分类数据分类时,计算每个样本与待分类数据之间的距离,并对距离排序,取距离最近的前K个样本,统计前K个样本的类别,统计得到最多的类别为待分类数据的类别,汇总多个待分类数据的类别,进而得到待分类文本的类别。
[0004]但是当前K个样本中最多的类别有两个以上时,则难以确定待分类数据的类别,对每个待分类数据分类时的效率降低,进而降低对待分类文本分类的效率。
技术实现思路
[0005]为了提高文本分类的效率,本申请提供一种基于KNN的文本分类方法、装置、电子设备和介质。r/>[0006]第本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于KNN的文本分类方法,其特征在于:获取待分类文本信息;基于所述待分类文本信息提取至少一个文本特征值,基于每个所述文本特征值确定在散点图中对应的文本点,所述散点图包括与各个类别的预存文本特征值对应的样本点,确定各个样本点与每个所述文本点的距离,确定距离每个所述文本点最近的K个样本点;分别确定所述距离每个所述文本点最近的K个样本点的类别以及各个类别的样本点的个数,基于所述各个类别的样本点的个数确定每个文本特征值的候选类别,所述候选类别包括个数最多的样本点的类别;判断所述每个文本特征值的候选类别是否为一个,若是,则确定文本特征值的类别与所述文本特征值的候选类别一致;否则,基于每个所述文本特征值的候选类别对应的各个样本点与文本点的距离,确定各个所述文本特征值的候选类别对应的各个样本点与所述文本点的距离总均值,确定所述文本特征值的类别与所述距离总均值最小的所述文本特征值的候选类别一致;基于各个所述文本特征值的类别确定所述待分类文本信息的类别。2.根据权利要求1所述的方法,其特征在于:所述待分类文本信息包括标题信息和正文信息,所述文本特征值包括标题特征值和正文特征值,则,基于所述待分类文本信息提取至少一个文本特征值,基于每个所述文本特征值确定在散点图中对应的文本点,所述散点图包括与各个类别的预存文本特征值对应的样本点,确定各个样本点与每个所述文本点的距离,确定距离每个所述文本点最近的K个样本点,包括:基于所述标题信息提取至少一个标题特征值;基于每个所述标题特征值确定在散点图中对应的第一文本点,分别确定距离每个所述第一文本点最近的K个样本点;当所述K个样本点与所述第一文本点的距离均大于预设距离值时,则获取所述正文信息中的关键词信息;基于所述关键词信息提取至少一个正文特征值;基于每个所述正文文本特征值确定在散点图中对应的第二文本点,分别确定距离每个所述第二文本点最近的K个样本点。3.根据权利要求2所述的方法,其特征在于,所述获取正文信息中的关键词信息,包括:基于词库对所述正文信息进行预处理,确定候选关键词信息,所述预处理包括对所述正文信息依次进行分词处理以及词性过滤处理,经过词性过滤处理后的关键词信息的词性包括动词和名词中至少一项;确定每个所述候选关键词信息的词频以及每个所述候选关键词信息在所述正文信息中的位置信息;基于每个所述候选关键词信息的词频、所述位置信息以及每个所述候选关键词信息在所述位置信息的权重信息,确定每个所述候选关键词信息的重要度信息;基于各个所述候选关键词信息的重要度信息确定降序排列的第一序列信息,所述第一序列信息包括各个所述候选关键词信息以及各个所述候选关键词信息对应的重要度信息;基于所述第一序列信息确定关键词信息,包括以下任一种:
若所述候选关键词信息的数量小于预设数量值,则基于所述候选关键词信息的数量以及预设取词比例确定预设取词数量,基于所述第一序列信息获取所述预设取词数量的所述候选关键词信息为关键词信息;若所述候选关键词信息的数量等于或大于预设数量值,则基于所述第一序列获取预设取词数量的所述候选关键词信息为关键词信息。4.根据权利要求1所述的方法,其特征在于,若所述距离总均值最小的所述文本特征值的候选类别有至少两种,所述确定所述文本特征值的类别与所述距离总均值最小的所述文本特征值的候选类别一致,包括:确定待定类别,所述待定类别包括距离总均值最小的所述文本特征值的候选类别;基于各个所述样本点与所述文本点的距离按照递增顺序排列,获得第二序列信息;循环执行基于所述第二序列信息获取与每个所述待定类别对应的增补样本点,所述增补样本点是距离上次从所述第二序列信息中获取的样本点或增补样本点最近的,基于每个所述待定类别对应的各个样...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。