一种基于降维的短信聚类方法技术

技术编号:24853622 阅读:44 留言:0更新日期:2020-07-10 19:07
本发明专利技术公开了一种基于降维的短信聚类方法,包括有以下步骤:S1:对短信文本进行预处理;S2:根据短信文本之间的相似度进行初步分类;S3:对无法处理的短信文本进行降维处理;S4:采用K‑Means算法对降维后的短信进行聚类操作,输出结果,本发明专利技术涉及大数据挖掘算法技术领域。本发明专利技术,通过相似度进行初步分类,简化了计算量,同时降维的处理使得聚合算法的效率进一步提高。

【技术实现步骤摘要】
一种基于降维的短信聚类方法
本专利技术涉及大数据挖掘算法
,特别是涉及一种基于降维的短信聚类方法。
技术介绍
随着互联网技术的普及和飞速发展,短信已经由传统的通讯工具演变成接收通知的媒介。垃圾短信开始困恼人们的生活,给我们带来骚扰和不便。对短信进行聚类可以有效缓解垃圾短信给人们生活带来的不变。不同于正常文本的聚类,短信文本具有稀疏性,文本中的大部分词语只出现一次。传统方法需要对短信进行逐条处理和分析,通过人工手段人为的做一些标记数据,之后才能在某种程度上对短信进行聚类。这样的处理方法效率低下,且硬件的要求较高,不利于大规模处理。基于传统处理方法效率低下,本专利技术通过直接计算词块之间的相似度对短信进行初步分类,然后使用Isomap流形学习算法对短信在进行将维操作,最后再使用K-means算法对短信文档集进行聚类,大大提高了聚类的可靠性和速度,解决传统短信过滤效率低下的问题。
技术实现思路
本专利技术的目的在于提供一种更为可靠、高效的短信聚类方法。首先,将短信文本进行预处理,剔除无效汉字及标点,并利用最大本文档来自技高网...

【技术保护点】
1.一种基于降维的短信聚类方法,其特征在于,包括有以下步骤:/nS1:对短信文本进行预处理;/nS2:根据短信文本之间的相似度进行初步分类;/nS3:对无法处理的短信文本进行降维处理;/nS4:采用K-Means算法对降维后的短信进行聚类操作,输出结果。/n

【技术特征摘要】
1.一种基于降维的短信聚类方法,其特征在于,包括有以下步骤:
S1:对短信文本进行预处理;
S2:根据短信文本之间的相似度进行初步分类;
S3:对无法处理的短信文本进行降维处理;
S4:采用K-Means算法对降维后的短信进行聚类操作,输出结果。


2.根据权利要求1所述的一种基于降维的短信聚类方法,其特征在于:所述S1步骤为:
S1-1:将短信SMi(i=1,2,...,n)中的异常标点和无效汉字去除;
S1-2:把短信SMi(i=1,2,...,n)分散成m个词语的列表(最大匹配),即SMi={Ti1,Ti2,...,Tim},其中每个Tik表示一个词语。


3.根据权利要求1所述的一种基于降维的短信聚类方法,其特征在于:所述S2步骤为:S2-1:将短信和短信之间的相似度定义为:



S2-2:利用Hungarian算法找出和之间的最大匹配,即SM′i在SM'j中的最大匹配是jk∈{1,2,...,n},k=1,2,...,m。SM'j在SM′i中的最大匹配是jk∈{1,2,...,m},k=1,2,...,n;
S2...

【专利技术属性】
技术研发人员:文谟祥杨与钦李辉城
申请(专利权)人:广州需你计算机服务有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1