当前位置: 首页 > 专利查询>北京大学专利>正文

一种讨论区集合中热点讨论区的预测方法技术

技术编号:4178246 阅读:260 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种讨论区集合中热点讨论区的预测方法,属于互联网信息挖掘领域,其包括下列步骤:针对目标讨论区集合,确定待预测的时间窗口W↓[i+1];获得目标讨论区集合内的各个讨论区在时间窗口W↓[i-1]和时间窗口W↓[i]内的特征向量,所述特征向量由显示讨论区受关注程度的多个属性组成;在W↓[i]内,以各个讨论区的特征向量作为数据对象对各个讨论区进行聚类分析,并以得到的一个或多个类中心作为W↓[i]内的热点讨论区;以各个讨论区在W↓[i-1]内的特征向量作为输入并以W↓[i]内的热点讨论区作为输出进行SVM学习;以各个讨论区在W↓[i]内的特征向量作为上述学习后的SVM的输入,输出目标讨论区集合在W↓[i+1]内的热点讨论区。本发明专利技术实现了讨论区集合中热点讨论区的预测,具有较好的应用前景。

【技术实现步骤摘要】

本专利技术涉及,特别涉及一种利用文本感情计算技术预测互联网论坛中的热点讨论区的方法,属于互联网信息挖掘领域。
技术介绍
随着互联网的普及和计算机通讯技术的发展,互联网上出现的海量数据以指数级别的速度不断增加,其中大部分是非结构化的文本数据。如何高效地处理这些数据,从中快速地提取有用的信息,对互联网信息挖掘有着重要的意义。 近几年来,文本倾向性分析,也叫文本情感计算,逐渐成为国内外学界的一个热点研究方向。通俗地说,文本倾向性(也叫做文本褒贬性或者文本情感)描述的是文本所传递的情感。对文本倾向性进行分析,实际上就是根据文本的内容提炼出作者的情感方向。文本倾向性分析可以是一个回归问题,也可以是一个分类问题。文本分类已经成为很多研究者的共同兴趣(Gaurav,J.et al.“An approach to text classification using dimensionality reductionand combination of classifiers”,Proceedings of the 2004 IEEE International Conference onI本文档来自技高网...

【技术保护点】
一种讨论区集合中热点讨论区的预测方法,其特征在于,包括下列步骤: a)针对目标讨论区集合,确定待预测的时间窗口W↓[i+1]; b)获得目标讨论区集合内的各个讨论区在时间窗口W↓[i-1]和时间窗口W↓[i]内的特征向量,所述特 征向量由显示讨论区受关注程度的多个属性组成,其中,W↓[i]在时间上介于W↓[i-1]和W↓[i+1]之间; c)在W↓[i]内,以各个讨论区的特征向量作为数据对象对各个讨论区进行聚类分析,并以得到的一个或多个类中心作为W↓[i]内的 热点讨论区; d)以各个讨论区在W↓[i-1]内的特征向量作为输入并以W↓[i]内的热点讨论区作为输出...

【技术特征摘要】

【专利技术属性】
技术研发人员:李楠梁循
申请(专利权)人:北京大学
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1