一种面向大规模动态短文本的聚类信息演化分析方法技术

技术编号：11661560 阅读：134 留言：0更新日期：2015-06-29 15:49

本发明专利技术涉及一种面向大规模动态短文本的聚类信息演化分析方法，首先结合自组织聚类算法中的神经元表示方法，以神经元代表文档类；然后将作为类别代表的神经元均匀的分摊到各单片机上，使每个单片机上存在小规模的局部神经元集合；接着以迭代调整思想为基础，对类别划分结果进行局部并行调整；再接着在进行多次局部并行调整后再进行一次全局同步调整，以完成网络海量数据的快速聚类；最后分析、对比不同时间段内的聚类模型的改变情况以获取短文本数据中所蕴含的不同信息的演化过程。本发明专利技术通过迭代的运行“局部并行调整”和“全局同步调整”将特征选择和类别划分融合到一起，实现对大规模网络动态短文本的快速聚类，极大地提升了运行效率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利说明】
本专利技术属于面向社会网络数据挖掘领域，特别涉及一种面向大规模动态短文本的聚类信息演化分析方法。【
技术介绍
】伴随着Web2. 0时代的到来，互联网行业正经历着一场巨大的变革，以社会化网络为基础的，以"微博"为典型代表的，这种致力于以网络沟通人与人之间的关系，从而进行休闲娱乐、商务投资、学习探讨等等一系列活动的虚拟交流平台一经出现，即获得了用户的追捧。社会化网络是一个动态的平台，其中的数据在不断的更新，如果能够获取动态数据中所蕴含的不同信息的演化过程（即分析出哪些信息不再为用户所关注，哪些信息持续受到用户关注，哪些信息最新为用户所关注），首先可以把握到用户关注点的整体变化趋势，其次还可以绘制信息的发展趋势图，以对信息的进化方向进行预测，将有限的人力和物力投向用户关注的焦点，正确引导舆论的走向。广大互联网用户也可通过对比不同信息的演化过程，快速的从浩瀚的信息海洋中发现其感兴趣的信息。现今比较热门的信息分析问题有"舆情分析"、"热点发现"、"话题演化"和"热点追踪"，其中舆情分析和热点发现的着眼点为"短时效性分析"，即意在分析和获取短时间内、集中爆发的信息。与它们相比，信息演化分析侧重于"长时效性分析"，其通过对比不同时间段内的动态数据，以获取数据中所蕴含的信息的发展趋势。话题演化和热点追踪也可对动态数据进行处理，然而其大多局限于一个或几个话题的发展趋势，与它们相比，信息演化分析意在对信息的总体变化情况进行展示。伴随着Web2. 0时代的到来，互联网行业正经历着一场巨大的变革，以社会化网络为基...

【技术保护点】
一种面向大规模动态短文本的聚类信息演化分析方法，其特征在于，首先结合自组织聚类算法中的神经元表示方法，以神经元代表文档类；然后将作为类别代表的神经元均匀的分摊到各单片机上，使每个单片机上存在小规模的局部神经元集合；接着以自组织聚类算法中的迭代调整思想为基础，对类别划分结果进行局部并行调整；再接着在进行多次局部并行调整后再进行一次全局同步调整，以完成面向海量短文本数据的快速聚类；最后在此基础上通过分析、对比不同时间段内的聚类模型的改变情况以获取短文本数据中所蕴含的不同信息的演化过程。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈蕾，边晓鸿，冯文荣，赵宝瑾，逯登宇，林信惠，李楠，赵丽娜，马一冰，
申请(专利权)人：北京师范大学珠海分校，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人