一种面向大规模动态短文本的聚类信息演化分析方法技术

技术编号:11661560 阅读:134 留言:0更新日期:2015-06-29 15:49
本发明专利技术涉及一种面向大规模动态短文本的聚类信息演化分析方法,首先结合自组织聚类算法中的神经元表示方法,以神经元代表文档类;然后将作为类别代表的神经元均匀的分摊到各单片机上,使每个单片机上存在小规模的局部神经元集合;接着以迭代调整思想为基础,对类别划分结果进行局部并行调整;再接着在进行多次局部并行调整后再进行一次全局同步调整,以完成网络海量数据的快速聚类;最后分析、对比不同时间段内的聚类模型的改变情况以获取短文本数据中所蕴含的不同信息的演化过程。本发明专利技术通过迭代的运行“局部并行调整”和“全局同步调整”将特征选择和类别划分融合到一起,实现对大规模网络动态短文本的快速聚类,极大地提升了运行效率。

【技术实现步骤摘要】
【专利说明】
本专利技术属于面向社会网络数据挖掘领域,特别涉及一种面向大规模动态短文本的 聚类信息演化分析方法。 【
技术介绍
】 伴随着Web2. 0时代的到来,互联网行业正经历着一场巨大的变革,以社会化网络 为基础的,以"微博"为典型代表的,这种致力于以网络沟通人与人之间的关系,从而进行休 闲娱乐、商务投资、学习探讨等等一系列活动的虚拟交流平台一经出现,即获得了用户的追 捧。 社会化网络是一个动态的平台,其中的数据在不断的更新,如果能够获取动态数 据中所蕴含的不同信息的演化过程(即分析出哪些信息不再为用户所关注,哪些信息持续 受到用户关注,哪些信息最新为用户所关注),首先可以把握到用户关注点的整体变化趋 势,其次还可以绘制信息的发展趋势图,以对信息的进化方向进行预测,将有限的人力和物 力投向用户关注的焦点,正确引导舆论的走向。广大互联网用户也可通过对比不同信息的 演化过程,快速的从浩瀚的信息海洋中发现其感兴趣的信息。 现今比较热门的信息分析问题有"舆情分析"、"热点发现"、"话题演化"和"热点追 踪",其中舆情分析和热点发现的着眼点为"短时效性分析",即意在分析和获取短时间内、 集中爆发的信息。与它们相比,信息演化分析侧重于"长时效性分析",其通过对比不同时间 段内的动态数据,以获取数据中所蕴含的信息的发展趋势。话题演化和热点追踪也可对动 态数据进行处理,然而其大多局限于一个或几个话题的发展趋势,与它们相比,信息演化分 析意在对信息的总体变化情况进行展示。 伴随着Web2. 0时代的到来,互联网行业正经历着一场巨大的变革,以社会化网络 为基础的,以"微博"为典型代表的,这种致力于以网络沟通人与人之间的关系,从而进行体 闲娱乐、商务投资、学习探讨等等一系列活动的虚拟交流平台一经出现,即获得了用户的追 捧。 社会化网络是一个动态的平台,其中的数据在不断的更新,如果能够获取动态数 据中所蕴含的不同信息的演化过程(即分析出哪些信息不再为用户所关注,哪些信息持续 受到用户关注,哪些信息最新为用户所关注),首先可以把握到用户关注点的整体变化趋 势,其次还可以绘制信息的发展趋势图,以对信息的进化方向进行预测,将有限的人力和物 力投向用户关注的焦点,正确引导舆论的走向。广大互联网用户也可通过对比不同信息的 演化过程,快速的从浩瀚的信息海洋中发现其感兴趣的信息。 现今比较热门的信息分析问题有"舆情分析"、"热点发现"、"话题演化"和"热点追 踪",其中舆情分析和热点发现的着眼点为"短时效性分析",即意在分析和获取短时间内、 集中爆发的信息。与它们相比,信息演化分析侧重于"长时效性分析",其通过对比不同时间 段内的动态数据,以获取数据中所蕴含的信息的发展趋势。话题演化和热点追踪也可对动 态数据进行处理,然而其大多局限于一个或几个话题的发展趋势,与它们相比,信息演化分 析意在对信息的总体变化情况进行展示。 区别于"新闻"或"博客"数据,广泛存在于社会化网络中的数据是一种典型的"短 文本",其长度一般小于140字(以新浪微博为例)。当文本长度过短时,以"向量空间模型" 为代表的表示方法会产生"高维向量稀疏"问题,同时决定于短文本间相似度的主要因素已 不再是同现词频度,而是文本间的语义相似度。上述两个问题使得广泛应用于"长文本"中 的分析方法无法应用于"短文本"分析中。因此,只有实现一种能够有效处理大规模动态短 文本的聚类分析方法,才能够很好的应对Web2. 0时代的到来对传统文本分析方法所带来 的巨大挑战。 【
技术实现思路
】 本专利技术为解决的上述技术问题,提供了一种引入并行化思想,通过迭代的运行"局 部并行调整"和"全局同步调整"将特征选择和类别划分融合到一起,实现面向大规模动态 短文本的快速聚类方法,该方法极大地提升了运行效率,且以可视化的标签集合来揭示网 络中不同信息的演化过程,以此反映用户的关注点在不同时间段内的整体变化趋势。 为解决上述技术问题,本专利技术采用如下技术方案: ,首先结合自组织聚类算法 中的神经元表示方法,以神经元代表文档类;然后将作为类别代表的神经元均匀的分摊到 各单片机上,使每个单片机上存在小规模的局部神经元集合;接着以自组织聚类算法中的 迭代调整思想为基础,对类别划分结果进行局部并行调整;再接着在进行多次局部并行调 整后再进行一次全局同步调整,以完成面向海量短文本数据的快速聚类;最后在此基础上 通过分析、对比不同时间段内的聚类模型的改变情况以获取短文本数据中所蕴含的不同信 息的演化过程。 进一步地,所述"对类别划分结果进行局部并行调整",具体包括以下步骤: al.采用分布式词聚类方法从待聚类的短文本数据集合中随机选择一篇文档,设 其为Φ ; a2.采用迭代的语义相似度计算方法来计算Cli与当前单片机上的局部神经元集合 中每个神经元之间的相似度,并选取与Cl i具有最大相似度的神经元,设其为Iij ; a3.调整r^_中特征的权值,并采用迭代的语义相似度计算方法在局部神经元集合 中找到与r^_最相似的神经元,设其为n b ; a4.检测Iij和nb间是否存在边,如果不存在边,则创建一条边以连接它们,设Iij和 nb间的边为Ijb ; a5.更新的权值,并赋的更新时间参数为0 ; a6.将局部神经元集合中所有神经元间的边的更新时间参数加1 ; a7.检测上述所有边,如果某条边的更新时间参数超过所有边的平均值,则删除此 边,并执行迭代次数t = t+1 ; a8.检测短文本到其聚类中心(神经元)的平均距离,当距离小于聚类过程的收敛 阈值u时,停止聚类过程进入聚类模型量化过程,否则判断t是否是m的整数倍,"是"则转 入全局同步调整步骤,"否"则返回开始。 进一步地,所述分布式词聚类方法是以信息论中的互信息理论为依据,选择使信 息损失降到最小的词类划分结果作为词聚类结果,在信息论中如果通过一个变量向另一个 变量进行编码时,其传递的信息量I通过如下公式计算得到:【主权项】1. ,其特征在于,首先结合自组 织聚类算法中的神经元表示当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种面向大规模动态短文本的聚类信息演化分析方法,其特征在于,首先结合自组织聚类算法中的神经元表示方法,以神经元代表文档类;然后将作为类别代表的神经元均匀的分摊到各单片机上,使每个单片机上存在小规模的局部神经元集合;接着以自组织聚类算法中的迭代调整思想为基础,对类别划分结果进行局部并行调整;再接着在进行多次局部并行调整后再进行一次全局同步调整,以完成面向海量短文本数据的快速聚类;最后在此基础上通过分析、对比不同时间段内的聚类模型的改变情况以获取短文本数据中所蕴含的不同信息的演化过程。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈蕾边晓鸿冯文荣赵宝瑾逯登宇林信惠李楠赵丽娜马一冰
申请(专利权)人:北京师范大学珠海分校
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1