当前位置: 首页 > 专利查询>吉林大学专利>正文

基于中心法的自适应文本聚类算法制造技术

技术编号:9848976 阅读:142 留言:0更新日期:2014-04-02 16:15
基于中心法的自适应文本聚类算法是一种迭代分割聚类算法,迭代之前,算法首先初始化相关参数,然后随机将数据集分割为大小相同的一组聚簇,并计算每个聚簇的CFC向量;在此之后,算法进入迭代过程,在进入迭代过程之后,每次迭代过程包括下列主要步骤:根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本,以得到新的一组聚簇;在重新组织每个文本之后,重新计算每个非空聚簇的CFC向量;判定算法是否满足终止条件,若满足则终止,否则继续进行迭代过程;具有如下主要优点:(1)方法简单,易于实现;(2)具有自适应性。

【技术实现步骤摘要】
基于中心法的自适应文本聚类算法
本专利技术属于信息检索领域,尤其涉及一种基于中心法并自适应确定聚类个数的文本聚类算法。
技术介绍
文本聚类算法是机器学习、信息检索等领域中一类主要的文本数据挖掘方法,是解决互联网文本信息过载的主要途径之一。其目的是按照“物以类聚”的原则组织互联网文本集合,以得到一系列有意义的文本子集。其中,每个文本子集内的文本之间最大程度地相似,而不同文本子集的文本之间最大程度地不同。良好的文本聚类算法能够将同话题同种类的文本聚集成一个有意义的文本子集,可以帮助互联网用户从海量文本信息中更容易地找到其最感兴趣的内容。研究和运用文本聚类算法对于完成文本数据挖掘任务具有重要的理论价值和现实意义。目前,已提出了多种文本聚类算法,大体分为如下三类:层次聚类算法、分割聚类算法和概率模型聚类算法。层次聚类算法通常以自顶向下或者自底向上的方式将文本集合组织成一个层次结构;分割聚类算法则按照某种选定标准将文本集合直接分割成几个聚簇,聚簇的数目通常是预先设定的;而概率模型聚类算法通过概率主题模型来解决文本聚类问题。其中,分割聚类算法因其具有容易理解、实现简单的优点而被广泛研究和使用。分割聚类算法的基本原理和过程是:首先,根据某一选定标准将数据集分割为k份,每份代表一个聚簇。分割产生的聚簇具备两个特点:1)每个聚簇至少包含一个数据,2)每个数据只属于一个聚簇。然后,通过反复的迭代过程对初次产生的划分进行逐步调整。最后,当选定标准达到最优或者迭代收敛条件满足时算法终止。从上述算法过程可以看出:分割聚类在算法运行之前需要人工预先指定聚簇个数k,这是其主要问题之一。另外,根据前人研究:分割聚类算法在数据集包含较多类别时算法表现较差。综上,分割聚类算法存在两个主要问题:1)在算法运行之前需要人工预先指定聚簇个数;2)在数据集包含较多类别时算法表现较差。
技术实现思路
针对分割聚类算法在算法运行之前需要人工预先指定聚簇个数以及在数据集包含较多类别时算法表现较差这两个问题,本专利技术的目的是提供一种在算法运行之前不需人工预先指定聚类个数(即根据数据集和算法运行情况自适应确定聚类个数)并且在数据集包含较多类别时算法表现较好的分割聚类算法。本专利技术方法:首先将文本数据集随机分割成大小相同并且较小的一组聚簇;然后根据文本和各聚簇中心的相似度通过迭代过程对聚簇进行调整、对数据集进行重组;最后当终止条件达到时迭代过程终止,可以获得更准确的聚类结果。本专利技术提供了一种基于中心法并自适应确定聚簇个数的文本聚类算法,所述方法包括如下步骤:步骤1:初始化算法相关参数首先,初始化聚簇的“类—特征—中心”(CFC:Class-Feature-Centroid)向量计算参数:b和log函数的底数。其次,设置算法运行控制参数,包括:随机聚类过程时的初始聚簇大小参数Im,重启频率参数Fm和重启范围Rm。最后,设置算法终止条件参数:最大迭代次数和收敛准确率。步骤2:分割数据集随机将数据集分割为大小为Im的一组聚簇,并计算每个聚簇的CFC向量。步骤3:重组数据集根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本,以得到新的一组聚簇,重组过程包含两种处理情况:(1)非重启迭代重组:将每个文本分配到和其最相似的CFC向量所属的聚簇中。(2)重启迭代重组:将每个文本分配到和其第2到第Rm相似区间中的某一CFC向量所属的聚簇中。步骤4:重新计算各聚簇的CFC向量在将所有文本重组之后,重新计算每个非空聚簇的CFC向量。步骤5:判定算法是否终止算法有两个终止条件:最大迭代次数和收敛准确率。如果两个终止条件有一个满足,则算法终止。否则,算法继续进行,转到步骤3。附图说明图1基于中心法的自适应文本聚类算法流程示意图。图2四个子数据集上本方法与其他4个方法的F值比较图。图3四个子数据集上本方法与其他4个方法的纯度比较图。图4四个子数据集上本方法与其他4个方法的信息熵比较图。图5参数Im和F值的关系图。图6参数Fm和F值的关系图。图7参数Rm和F值的关系图。图8重启和非重启情况下的F值比较图。图9重启和非重启情况下的纯度比较图。图10重启和非重启情况下的信息熵比较图。具体实施方式以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。现通过附图和实施例对本专利技术作进一步的详细描述。本专利技术实施例的前提是已获得了文本数据集。图1为本专利技术实施例提供的基于中心法的自适应文本聚类算法流程示意图,如图1所示,本实施例主要包含以下步骤:步骤1:初始化相关参数首先,初始化聚簇的CFC向量计算参数b和log函数的底数。其次,设置算法随机分割过程时的参数初始聚簇大小Im,设置算法重启策略的参数重启频率Fm和重启范围Rm。最后,设置算法终止条件的参数最大迭代次数和收敛准确率。步骤2:分割数据集随机将数据集分割为聚簇大小为Im的一系列聚簇,并按公式(1)计算每个聚簇的CFC向量。其中,表示词项ti在聚簇CAj中的文档频率,表示包含词项ti的类数。|CAj|表示类CAj的大小,|CA|表示整个数据集W的所有类数。步骤3:重组数据集首先,按公式(2)计算文本向量和聚簇的CFC向量的相似度略迭代重组”,即将每个文本分配到和其最相似的CFC向量所属的聚簇中。(2)当前迭代次数达到重启频率参数Im时,进行“重启策略迭代重组”,即将每个文本分配到和其非最相似的某一CFC向量(第2到第Rm相似区间中的某一个CFC向量)所属的聚簇中。重启策略的目的是避免算法过早地陷入到局部极小值中。步骤4:重新计算各聚簇的CFC向量在将所有文本重组之后,按公式(1)重新计算每个非空聚簇的CFC向量。步骤5:判定算法是否终止算法有两个终止条件:最大迭代次数和收敛准确率。如果两个终止条件有一个满足,则算法终止。否则,算法从本步骤转到步骤3继续进行。以上实施例仅用于说明本专利技术而非对其进行限制,有关领域的普通技术人员,在不脱离本专利技术的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本专利技术的范畴,本专利技术的专利保护范围应由权利要求限定。例1本专利技术在公共可用真实数据集Newsgroup上的实验结果Newsgroup数据集是由来自20个新闻组的20000条消息组成的一个数据集,是用于自然语言处理、信息检索、机器学习等领域科研任务的数据集。其每个新闻组属于一个特定的语义分支目录。本专利技术从Newsgroup数据集构建出四个子数据集NW3000,NW4000,ifd→i∈CUj<d→i,CFC→j>else---(2)]]>其中,符号<,>表示内积操作。和分别表示文本i的tf-idf向量和聚簇j的CFC向量。按照惯例,文本向量经过规范化处理,其模为1,以减小不同文本长度带来的负面影响。聚簇的CFC向量不需要规范化处理。然本文档来自技高网
...
基于中心法的自适应文本聚类算法

【技术保护点】
基于中心法的自适应文本聚类算法,其特征在于,包括如下步骤:步骤1:初始化算法相关参数首先,初始化聚簇的“类—特征—中心”(CFC:Class‑Feature‑Centroid)向量计算参数:b和log函数的底数,其次,设置算法运行控制参数,包括:随机聚类过程时的初始聚簇大小参数Im,重启频率参数Fm和重启范围Rm,最后,设置算法终止条件参数:最大迭代次数和收敛准确率;步骤2:分割数据集随机将数据集分割为大小为Im的一组聚簇,并计算每个聚簇的CFC向量;步骤3:重组数据集根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本,以得到新的一组聚簇,重组过程包含两种处理情况:(1)非重启迭代重组:将每个文本分配到和其最相似的CFC向量所属的聚簇中;(2)重启迭代重组:将每个文本分配到和其第2到第Rm相似区间中的某一CFC向量所属的聚簇中;步骤4:重新计算各聚簇的CFC向量在将所有文本重组之后,重新计算每个非空聚簇的CFC向量;步骤5:判定算法是否终止算法有两个终止条件:最大迭代次数和收敛准确率,如果两个终止条件有一个满足,则算法终止,否则,算法继续进行,转到步骤3。

【技术特征摘要】
1.基于中心法的自适应文本聚类方法,其特征在于,包括如下步骤:步骤1:初始化方法的相关参数首先,初始化聚簇的“类—特征—中心:Class-Feature-Centroid”即CFC向量的计算参数:b和log函数的底数;其次,设置方法的运行控制参数,包括:随机聚类过程时的初始聚簇大小参数Im,重启频率参数Fm和重启范围Rm;最后,设置方法终止条件参数:最大迭代次数和收敛准确率;步骤2:分割数据集随机将数据集分割为大小为Im的一组聚簇,并计算每个聚簇的CFC向量;步骤3:重组数据集根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本,以得到新的一组聚簇,重组过程包含两种处理情况:(1)非重启迭代重组:将每个文本分配到和其最相似的CFC向量所属的聚簇中;(2)重启迭代重组:将每个文本分配到和其第2到第Rm相似区间中的某一CFC向量所属的聚簇中;步骤4:重新计算各聚簇的CFC向量在将所有文本重组之后,重新计算每个非空聚簇的CFC向量;步骤5:判定方法是否终止方法有两个终止条件:最大迭代次数和收敛准确率;如果两个终止条件有一个满足,则方法终止;否则,方法继续进行,转到步骤3。2.根据权利要求1所述的基于中心法的自适应文本聚类方法,其特征在于,该方法采用如下基本原理对文本进行聚类:首先将文本数据集随机分割成大小相同的一组聚簇;然后根据文本和各聚簇中心的相似度通过迭代过程对聚簇进行调整、对数据集进行重组;最后当终止条件达到时迭代过程终止,能够获得更...

【专利技术属性】
技术研发人员:欧阳继红周晓堂李熙铭马超王旭
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1