基于中心法的自适应文本聚类算法制造技术

技术编号：9848976 阅读：142 留言：0更新日期：2014-04-02 16:15

基于中心法的自适应文本聚类算法是一种迭代分割聚类算法，迭代之前，算法首先初始化相关参数，然后随机将数据集分割为大小相同的一组聚簇，并计算每个聚簇的CFC向量；在此之后，算法进入迭代过程，在进入迭代过程之后，每次迭代过程包括下列主要步骤：根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本，以得到新的一组聚簇；在重新组织每个文本之后，重新计算每个非空聚簇的CFC向量；判定算法是否满足终止条件，若满足则终止，否则继续进行迭代过程；具有如下主要优点：（1）方法简单，易于实现；（2）具有自适应性。

全部详细技术资料下载

【技术实现步骤摘要】
基于中心法的自适应文本聚类算法
本专利技术属于信息检索领域，尤其涉及一种基于中心法并自适应确定聚类个数的文本聚类算法。
技术介绍
文本聚类算法是机器学习、信息检索等领域中一类主要的文本数据挖掘方法，是解决互联网文本信息过载的主要途径之一。其目的是按照“物以类聚”的原则组织互联网文本集合，以得到一系列有意义的文本子集。其中，每个文本子集内的文本之间最大程度地相似，而不同文本子集的文本之间最大程度地不同。良好的文本聚类算法能够将同话题同种类的文本聚集成一个有意义的文本子集，可以帮助互联网用户从海量文本信息中更容易地找到其最感兴趣的内容。研究和运用文本聚类算法对于完成文本数据挖掘任务具有重要的理论价值和现实意义。目前，已提出了多种文本聚类算法，大体分为如下三类：层次聚类算法、分割聚类算法和概率模型聚类算法。层次聚类算法通常以自顶向下或者自底向上的方式将文本集合组织成一个层次结构；分割聚类算法则按照某种选定标准将文本集合直接分割成几个聚簇，聚簇的数目通常是预先设定的；而概率模型聚类算法通过概率主题模型来解决文本聚类问题。其中，分割聚类算法因其具有容易理解、实现简单的优点而被广泛研究和使用。分割聚类算法的基本原理和过程是：首先，根据某一选定标准将数据集分割为k份，每份代表一个聚簇。分割产生的聚簇具备两个特点：1）每个聚簇至少包含一个数据，2）每个数据只属于一个聚簇。然后，通过反复的迭代过程对初次产生的划分进行逐步调整。最后，当选定标准达到最优或者迭代收敛条件满足时算法终止。从上述算法过程可以看出：分割聚类在算法运行之前需要人工预先指定聚簇个数k，这是其主要问题之一。...
基于中心法的自适应文本聚类算法

【技术保护点】
基于中心法的自适应文本聚类算法，其特征在于，包括如下步骤：步骤1：初始化算法相关参数首先，初始化聚簇的“类—特征—中心”(CFC:Class‑Feature‑Centroid)向量计算参数：b和log函数的底数，其次，设置算法运行控制参数，包括：随机聚类过程时的初始聚簇大小参数Im，重启频率参数Fm和重启范围Rm，最后，设置算法终止条件参数：最大迭代次数和收敛准确率；步骤2：分割数据集随机将数据集分割为大小为Im的一组聚簇，并计算每个聚簇的CFC向量；步骤3：重组数据集根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本，以得到新的一组聚簇，重组过程包含两种处理情况：（1）非重启迭代重组：将每个文本分配到和其最相似的CFC向量所属的聚簇中；（2）重启迭代重组：将每个文本分配到和其第2到第Rm相似区间中的某一CFC向量所属的聚簇中；步骤4：重新计算各聚簇的CFC向量在将所有文本重组之后，重新计算每个非空聚簇的CFC向量；步骤5：判定算法是否终止算法有两个终止条件：最大迭代次数和收敛准确率，如果两个终止条件有一个满足，则算法终止，否则，算法继续进行，转到步骤3。

【技术特征摘要】
1.基于中心法的自适应文本聚类方法，其特征在于，包括如下步骤：步骤1：初始化方法的相关参数首先，初始化聚簇的“类—特征—中心：Class-Feature-Centroid”即CFC向量的计算参数：b和log函数的底数；其次，设置方法的运行控制参数，包括：随机聚类过程时的初始聚簇大小参数Im，重启频率参数Fm和重启范围Rm；最后，设置方法终止条件参数：最大迭代次数和收敛准确率；步骤2：分割数据集随机将数据集分割为大小为Im的一组聚簇，并计算每个聚簇的CFC向量；步骤3：重组数据集根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本，以得到新的一组聚簇，重组过程包含两种处理情况：(1)非重启迭代重组：将每个文本分配到和其最相似的CFC向量所属的聚簇中；(2)重启迭代重组：将每个文本分配到和其第2到第Rm相似区间中的某一CFC向量所属的聚簇中；步骤4：重新计算各聚簇的CFC向量在将所有文本重组之后，重新计算每个非空聚簇的CFC向量；步骤5：判定方法是否终止方法有两个终止条件：最大迭代次数和收敛准确率；如果两个终止条件有一个满足，则方法终止；否则，方法继续进行，转到步骤3。2.根据权利要求1所述的基于中心法的自适应文本聚类方法，其特征在于，该方法采用如下基本原理对文本进行聚类：首先将文本数据集随机分割成大小相同的一组聚簇；然后根据文本和各聚簇中心的相似度通过迭代过程对聚簇进行调整、对数据集进行重组；最后当终止条件达到时迭代过程终止，能够获得更...

【专利技术属性】
技术研发人员：欧阳继红，周晓堂，李熙铭，马超，王旭，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林;22

全部详细技术资料下载我是这个专利的主人