基于K均值聚类算法的单词分类方法及系统技术方案

技术编号:45771844 阅读:18 留言:0更新日期:2025-07-11 19:51
本发明专利技术公开一种基于K均值聚类算法的单词分类方法及系统,将单词按照构造分类包括以下步骤:步骤1、提取新单词的特征参数;步骤2、基于预设的K均值聚类算法对所述特征参数进行聚类,步骤3、计算新单词的特征参数相对于每个特征参数暂时纳入的类的相似度;步骤4、比较步骤3获得的每个类的相似度,将所述新单词纳入对应最大相似度的类,并从其他暂时纳入的类中去除所述新单词。步骤5、重复步骤1‑4,其中,每次选取的单词字母串均不同,直至新单词包含的单词字母串穷尽为止。本分可以将整体构造相似的单词归类,可提供对整体构造相似的单词归类学习。

【技术实现步骤摘要】

本专利技术涉及文本分类,尤其涉及一种基于k均值聚类算法的单词分类方法及系统。


技术介绍

1、英语是一种拼写语言,其单词组成过程是由字母构成音素,再由音素构成词素,最后由词素构成单词,但是学习者在面对拼写相似的单词时,从视觉上往往容易混淆,从而造成记忆上的困难,影响学习效率。

2、公开号cn 110909161 b的专利公开了一种基于密度聚类和视觉相似度的英文单词分类方法,其步骤为:英文单词预处理;计算所选英文单词与每个英文单词的视觉相似度和距离;若邻域集中单词个数大于或等于2,则将所选单词加入空簇后选择未分类英文单词;处理未访问的未分类英文单词;对已访问的未分类英文单词,直接将其加入簇;判断是否有未分类英文单词,若有则选择未分类英文单词,否则将簇作为新一类单词标记为已访问;若单词均已访问,输出各类。

3、该专利利用对所选英文单词与原始待分类单词集合中的每个英文单词进行预处理,计算所选英文单词与原始待分类单词集合中的每个英文单词的视觉相似度,计算所选英文单词与原始待分类单词集合中的每个英文单词的距离,克服了在计算英文单词相似度之前需要本文档来自技高网...

【技术保护点】

1.基于K均值聚类算法的单词分类方法,其特征在于,将单词按照构造分类,所述将单词按照构造分类包括以下步骤:

2.根据权利要求1所述的基于K均值聚类算法的单词分类方法,其特征在于,在步骤5之后还包括:

3.根据权利要求1所述的基于K均值聚类算法的单词分类方法,其特征在于,步骤4中,所述相似度的计算方法如下:

4.根据权利要求3所述的基于K均值聚类算法的单词分类方法,其特征在于,所述相似的字母为“u”与“v”、“c”与“o”、“p”与“q”、“b”与“d”。

5.根据权利要求3所述的基于K均值聚类算法的单词分类方法,其特征在于,步骤2中,所述预...

【技术特征摘要】

1.基于k均值聚类算法的单词分类方法,其特征在于,将单词按照构造分类,所述将单词按照构造分类包括以下步骤:

2.根据权利要求1所述的基于k均值聚类算法的单词分类方法,其特征在于,在步骤5之后还包括:

3.根据权利要求1所述的基于k均值聚类算法的单词分类方法,其特征在于,步骤4中,所述相似度的计算方法如下:

4.根据权利要求3所述的基于k均值聚类算法的单词分类方法,其特征在于,所述相似的字母为“u”与“v”、“c”与“o”、“p”与“q”、“b”与“d”。

5.根据权利要求3所述的基于k均值聚类算法的单词分类方法,其特征在于,步骤2中,所述预设的k...

【专利技术属性】
技术研发人员:龚立玲高源王樊罗姚黄万里朱军黄杨张东
申请(专利权)人:重庆思途元景科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1