一种基于标签聚类的博客层次分类树构建方法技术

技术编号:2914586 阅读:338 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于标签聚类的博客层次分类树构建方法。所述方法包括步骤:第一、初始化并输入预先定义的博客层次分类树和由标签关系数据构造的邻接矩阵;第二、调用标签聚类算法对标签关系数据进行聚类,由此生成数个标签簇;第三、运用主题泛化算法从各个标签簇中提取一个或多个关键标签词作为其主题;第四步:在标签簇还能进一步聚类时,递归调用第二步和第三步;第五步:每一次递归调用结束后都在博客层次分类树中构建新的层次以及增加新的主题节点;第六、递归终止条件完全满足后,输出构造好的博客层次分类树。本方法是针对博客数据的检索、挖掘和浏览等问题提出的,能够快速组织海量博客数据的主题层次关系,并具有较高的效率和准确率。

【技术实现步骤摘要】

本专利技术涉及构建blog主题层次结构的技术,具体涉及一种基于tag聚类的blog层次分类树构建方法。
技术介绍
Blog即博客,是一种流行的个人媒体。它承载了大量有价值的信息,并且在互联网中的地位越来越重要,已经成为人们日常生活和工作中不可或缺的一部分。然而由于blog与传统的网页的信息特点有很大的不同,如何对blog中的信息进行针对性的检索和更深层次的挖掘利用,已经成为当前互联网应用研究中的一个热点。在解决针对blog的信息检索、挖掘和浏览等问题中,对日志内容进行主题提取,是其中重要的环节。blog日志包含的主题五花八门,需要对不同的主题加以区别,也需要为相似的主题建立联系。所以,引入了blog分类目录来组织blog主题的层次结构。blog主题分类目录往往是由人工设定和维护,它很难跟得上blog页面的增长。blog内容的不正规和随意性,也使确定一个blog的主题类别变得很困难。Tag即标签,是blog空间一种特殊的信息组织方式,是blogger对自己写作内容主题的一种分类方式。它是blogger对日志主题从多个角度进行总结和概括的一个或多个词。虽然tag存在多义性、随意性等缺点本文档来自技高网...

【技术保护点】
一种基于标签聚类的博客层次分类树构建方法,其特征在于:所述基于标签聚类的博客层次分类树构建方法包括以下步骤: A:初始化并输入预先定义的博客层次分类树和由标签关系数据构造的邻接矩阵; B:调用标签聚类算法对标签关系数据进行聚类, 由此生成数个标签簇; C:运用主题泛化算法提取一个或多个关键标签词作为每个标签簇的主题; D:当标签簇还能进一步聚类时,重复步骤B和步骤C; E:每一次递归调用后在博客层次分类树中构建新的层次以及增加新的主题节点;  F:递归调用条件满足后,输出构造好的博客层次分类树。

【技术特征摘要】
1.一种基于标签聚类的博客层次分类树构建方法,其特征在于:所述基于标签聚类的博客层次分类树构建方法包括以下步骤:A:初始化并输入预先定义的博客层次分类树和由标签关系数据构造的邻接矩阵;B:调用标签聚类算法对标签关系数据进行聚类,由此生成数个标签簇;C:运用主题泛化算法提取一个或多个关键标签词作为每个标签簇的主题;D:当标签簇还能进一步聚类时,重复步骤B和步骤C;E:每一次递归调用后在博客层次分类树中构建新的层次以及增加新的主题节点;F:递归调用条件满足后,输出构造好的博客层次分类树。2.根据权利要求1所述基于标签聚类的博客层次分类树构建方法,其特征在于:所述步骤B的标签聚类算法中使用的主要数据结构包括:模块性增量矩阵ΔQ、最大堆H、辅助向量a和种子标签集合SeedSet;其中,所述模块性增量矩阵ΔQ为稀疏矩阵,每一行存为一个平衡二叉树和一个最大堆;所述最大堆H包含所述模块性增量矩阵ΔQ中每一行的最大元素和该元素相应的两个集束的编号i和j;所述种子标签集合SeedSet保存有每个种子标签的编号。3.根据权利要求1或2所述基于标签聚类的博客层次分类树构建方法,其特征在于:所述步骤B包括子步骤:B1:初始化;B2:从所述最大堆H中选择最大的ΔQij,并得到集束i和集束j的分组号g1、g2;B3:重复所述步骤B2,直到网络中所有的节点都归到一个集束内。4.根据权利要求3所述基于标签聚类的博客层次分类树构建方法,其特征在于:所述步骤B1中的初始化包括:初始化图G为n个集束,使每个标签为一个独立的集束,初始化所述种子标签集合SeedSet,使每个集束有一个全局唯一的编号;保存每个种子标签的编号,使初始的模块性Q=0。5.根据权利要求3所述基于标签聚类的博客层次分类树构建方法,其特征在于:所述步骤B2包括子步骤:B21:当g1∈SeedSet且g2∈SeedSet时,设置ΔQij为一个无穷小负值;B22:当g1∈SeedSet且g2∈SeedSet,从所述图G中移除所述分组号g1,然后加入所述分组号g2;B23:合并相应的集束i和集束j,标记合并后的集束的标号为j;B24:更新所述模块性增量矩阵ΔQ、所述最大堆H和所述辅助向量a:其中所述模块性增量矩阵ΔQ的更新为:删除第i行和第i列的元素,更新第j行和第j列的元素:所述最大堆H的更新:每一次更新ΔQij后,就要更新最大堆中相应的行和列的最大元素;所述辅助向量a的更新为...

【专利技术属性】
技术研发人员:叶允明王冰伟何金艳
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1