【技术实现步骤摘要】
本专利技术涉及,特别涉及一种利用文本感情计算技术预测互联网论坛中的热点讨论区的方法,属于互联网信息挖掘领域。
技术介绍
随着互联网的普及和计算机通讯技术的发展,互联网上出现的海量数据以指数级别的速度不断增加,其中大部分是非结构化的文本数据。如何高效地处理这些数据,从中快速地提取有用的信息,对互联网信息挖掘有着重要的意义。 近几年来,文本倾向性分析,也叫文本情感计算,逐渐成为国内外学界的一个热点研究方向。通俗地说,文本倾向性(也叫做文本褒贬性或者文本情感)描述的是文本所传递的情感。对文本倾向性进行分析,实际上就是根据文本的内容提炼出作者的情感方向。文本倾向性分析可以是一个回归问题,也可以是一个分类问题。文本分类已经成为很多研究者的共同兴趣(Gaurav,J.et al.“An approach to text classification using dimensionality reductionand combination of classifiers”,Proceedings of the 2004 IEEE International Conf ...
【技术保护点】
一种讨论区集合中热点讨论区的预测方法,其特征在于,包括下列步骤: a)针对目标讨论区集合,确定待预测的时间窗口W↓[i+1]; b)获得目标讨论区集合内的各个讨论区在时间窗口W↓[i-1]和时间窗口W↓[i]内的特征向量,所述特 征向量由显示讨论区受关注程度的多个属性组成,其中,W↓[i]在时间上介于W↓[i-1]和W↓[i+1]之间; c)在W↓[i]内,以各个讨论区的特征向量作为数据对象对各个讨论区进行聚类分析,并以得到的一个或多个类中心作为W↓[i]内的 热点讨论区; d)以各个讨论区在W↓[i-1]内的特征向量作为输入并以W↓[i]内 ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。