短信聚类方法及装置制造方法及图纸

技术编号:13464306 阅读:114 留言:0更新日期:2016-08-04 18:27
本公开是关于一种短信聚类方法及装置,方法包括:根据短信集合中任意两个短信之间的相似度,构建短信集合的相似度矩阵;利用预设相似度阈值对相似度矩阵进行层次聚类,得到参考类别数量;确定类别数量,包括:根据参考类别数量确定第一类别数量和第二类别数量;谱聚类过程,包括:将参考类别数量、第一类别数量和第二类别数量分别作为聚类数量对相似度矩阵进行谱聚类,获得短信聚类结果;当短信聚类结果满足预设条件时,将参考类别数量对应的短信聚类结果确定为目标短信聚类结果。该方法在对短信集合中的短信进行聚类时,是基于短信的结构相似度,充分考虑了短信句子的结构和语义之间的相似性,所以使得短信进行聚类的准确性提高。

【技术实现步骤摘要】
【专利摘要】本公开是关于一种短信聚类方法及装置,方法包括:根据短信集合中任意两个短信之间的相似度,构建短信集合的相似度矩阵;利用预设相似度阈值对相似度矩阵进行层次聚类,得到参考类别数量;确定类别数量,包括:根据参考类别数量确定第一类别数量和第二类别数量;谱聚类过程,包括:将参考类别数量、第一类别数量和第二类别数量分别作为聚类数量对相似度矩阵进行谱聚类,获得短信聚类结果;当短信聚类结果满足预设条件时,将参考类别数量对应的短信聚类结果确定为目标短信聚类结果。该方法在对短信集合中的短信进行聚类时,是基于短信的结构相似度,充分考虑了短信句子的结构和语义之间的相似性,所以使得短信进行聚类的准确性提高。【专利说明】短信聚类方法及装置
本公开涉及数据分类
,尤其涉及一种短信聚类方法及装置。
技术介绍
普通用户短信涉及用户较多隐私,且句子结构复杂多样,在文本挖掘中,一般涉及较少。通知类短信结构相对更严谨,一般是文本挖掘的重要对象。文本聚类方法有k-means,层次聚类等方法。但这些聚类方法在聚类时,很难考虑句子的结构和语义之间的相似性,因此,在聚类时得到的聚类结果准确性较低,具有很大的局限性。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种短信聚类方法及装置。根据本公开实施例的第一方面,提供一种短信聚类方法,包括:根据短信集合中任意两个短信之间的相似度,构建所述短信集合的相似度矩阵;利用预设相似度阈值对所述相似度矩阵进行层次聚类,得到参考类别数量;确定类别数量,包括:根据所述参考类别数量确定第一类别数量和第二类别数量;谱聚类过程,包括:将所述参考类别数量、第一类别数量和第二类别数量分别作为聚类数量对所述相似度矩阵进行谱聚类,获得短信聚类结果;当所述短信聚类结果满足预设条件时,将所述参考类别数量对应的短信聚类结果确定为目标短信聚类结果。利用该方法,在对短信集合中的短信进行聚类时,是基于短信的结构相似度,充分考虑了短信句子的结构和语义之间的相似性,所以使得短信进行聚类的准确性提高,进而通过该方法聚类得到的短信之间类别分明,以使得后续对聚类得到的短信类别进行其它诸如批量标记、批量删除等操作。可选地,所述第一类别数量、第二类别数量与所述参考类别数量相邻,且所述第一类别数量小于所述第二类别数量。可选地,所述将所述参考类别数量、第一类别数量和第二类别数量分别作为聚类数量对所述相似度矩阵进行谱聚类,获得聚类结果,包括:获取所述相似度矩阵中的特征值,以及特征值对应的特征向量;由小到大从所述特征向量中分别按照所述参考类别数量、第一类别数量和第二类别数量选择出三组特征向量;将选取的所述三组特征向量组成三个特征向量空间;利用K-means聚类算法对每个特征向量空间中的特征向量分别进行聚类,得到三组聚类类别作为短信聚类结果。通过该方法,不仅对参考聚类类别进行聚类,而且对与参考聚类类别相邻的两个类别同样进行聚类,得到三组聚类类别作为距离结果,以便于对后续对三组聚类类别之间的差异进行判断,进而确定本次确定的参考聚类类别是否恰当。可选地,所述方法包括:分别计算每组聚类类别中任意两个聚类类别的类簇质心之间距离的加权平均值;利用预设比值公式计算三组聚类类别的加权平均值的比值;判断所述比值是否大于第一阈值;当所述比值大于第一阈值时,确定所述短信聚类结果满足预设条件。本公开实施例提供的该方法,在利用参考聚类类别以及与参考聚类类别相邻的两个类别进行聚类后,通过计算各加权平均值之间的关系,可以确定本次聚类是否准确,并且在不准确时,可以进行迭代运算,直至得到最优的分类。可选地,所述根据短信集合中任意两个短信之间的相似度,构建所述短信集合的相似度矩阵,包括:利用预设相似度公式计算短信集合中任意两个短信之间的相似度;生成包含所有相似度的矩阵作为所述短信集合的相似度矩阵。可选地,所述预设相似度公式为:Sim(A1B) =Simstruct(A,B) X (aSimt(A,B)+PSimgram(A,B))其中<^£,0三;当短信A和短信B的结构相同时,Sims truct ( A , B ) — I ;当短信A和短信B的结构不相同时,S imstruct (A,B) = O;Simt(A1B) = Cos(vec(A),vec(B));其中:vec(A)为短信A的潜在狄利克雷分配模型LDA主题向量;vec(B)为短信B的LDA主题向量;Simgram(A1B)= |D(A) HD(B) |/|D(A) UD(B) | ;其中,D(A)为短信A的2-gram词对;D(B)为短信B的2-gram词对。可选地,所述利用预设相似度阈值对所述相似度矩阵进行层次聚类,得到参考类别数量,包括:将所述相似度矩阵中每个相似度的值分别与所述预设相似度阈值进行比较;提取所述相似度矩阵中所有大于预设相似度阈值的相似度;将任意两个短信之间的相似度均大于所述预设相似度阈值的短信确定为一个类别;将确定得到的类别的数量作为所述参考类别数量。谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间聚类且收敛于全局最优解的特点。但是谱聚类需要给定类的数量,才能运算,而通常情况下是无法事先得到一个类别数量,所以,可以基于预设相似度阈值,得到一个大致的类的数量。可选地,所述方法还包括:当所述短信聚类结果不满足预设条件时,修正所述参考类别数量的值,迭代执行所述确定类别数量及所述谱聚类过程,直至获得的短信聚类结果满足所述预设条件。谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间聚类且收敛于全局最优解的特点。但是谱聚类需要给定类的数量,才能运算,而通常情况下是无法事先得到一个类别数量,所以,可以基于预设相似度阈值,得到一个大致的类的数量。以便于后续基于该大致的类的数量进行修正后,进行迭代学习聚类数量,直到最后聚类效果稳定为止。可选地,所述修正所述参考类别数量的值,包括:获取所述短信聚类结果中的预设比值;当所述预设比值小于第二阈值时,将所述参考类别数量的值减去第一预设值;当所述预设比值大于第二阈值时,将所述参考类别数量的值增加第二预设值。在本公开实施例中,由于第二阈值小于所述第一阈值,也即,在比值小于第一阈值后,还可以进一步和第二阈值进行比较,并且根据和第二阈值的比值结果,来确定将参考类别数量是增加还是减少。根据本公开实施例的第二方面,提供一种短信聚类装置,包括:矩阵构建模块,用于根据短信集合中任意两个短信之间的相似度,构建所述短信集合的相似度矩阵;层次聚类确定模块,用于利用预设相似度阈值对所述相似度矩阵进行层次聚类,得到参考类别数量;类别数量确定模块,用于确定类别数量,包括:根据所述参考类别数量确定第一类别数量和第二类别数量;谱聚类模块,用于进行谱聚类过程,包括:将所述参考类别数量、第一类别数量和第二类别数量分别作为聚类数量对所述相似度矩阵进行谱聚类,获得短信聚类结果;结果确定模块,用于当所述短信聚类结果满足预设条件时,将所述参考类别数量对应的短信聚类结果确定为目标短信聚类结果。可选地,所述第一类别数量、第二类别数量与所述参考类别数量相邻,且所述第一类别数量小于所述第二类别数量。可选地,所述谱聚类模块,包括:特征本文档来自技高网...

【技术保护点】
一种短信聚类方法,其特征在于,包括:根据短信集合中任意两个短信之间的相似度,构建所述短信集合的相似度矩阵;利用预设相似度阈值对所述相似度矩阵进行层次聚类,得到参考类别数量;确定类别数量,包括:根据所述参考类别数量确定第一类别数量和第二类别数量;谱聚类过程,包括:将所述参考类别数量、第一类别数量和第二类别数量分别作为聚类数量对所述相似度矩阵进行谱聚类,获得短信聚类结果;当所述短信聚类结果满足预设条件时,将所述参考类别数量对应的短信聚类结果确定为目标短信聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪平仄张涛陈志军
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1