当前位置: 首页 > 专利查询>北京大学专利>正文

一种讨论区集合中热点讨论区的预测方法技术

技术编号:4178246 阅读:247 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种讨论区集合中热点讨论区的预测方法,属于互联网信息挖掘领域,其包括下列步骤:针对目标讨论区集合,确定待预测的时间窗口W↓[i+1];获得目标讨论区集合内的各个讨论区在时间窗口W↓[i-1]和时间窗口W↓[i]内的特征向量,所述特征向量由显示讨论区受关注程度的多个属性组成;在W↓[i]内,以各个讨论区的特征向量作为数据对象对各个讨论区进行聚类分析,并以得到的一个或多个类中心作为W↓[i]内的热点讨论区;以各个讨论区在W↓[i-1]内的特征向量作为输入并以W↓[i]内的热点讨论区作为输出进行SVM学习;以各个讨论区在W↓[i]内的特征向量作为上述学习后的SVM的输入,输出目标讨论区集合在W↓[i+1]内的热点讨论区。本发明专利技术实现了讨论区集合中热点讨论区的预测,具有较好的应用前景。

【技术实现步骤摘要】

本专利技术涉及,特别涉及一种利用文本感情计算技术预测互联网论坛中的热点讨论区的方法,属于互联网信息挖掘领域。
技术介绍
随着互联网的普及和计算机通讯技术的发展,互联网上出现的海量数据以指数级别的速度不断增加,其中大部分是非结构化的文本数据。如何高效地处理这些数据,从中快速地提取有用的信息,对互联网信息挖掘有着重要的意义。 近几年来,文本倾向性分析,也叫文本情感计算,逐渐成为国内外学界的一个热点研究方向。通俗地说,文本倾向性(也叫做文本褒贬性或者文本情感)描述的是文本所传递的情感。对文本倾向性进行分析,实际上就是根据文本的内容提炼出作者的情感方向。文本倾向性分析可以是一个回归问题,也可以是一个分类问题。文本分类已经成为很多研究者的共同兴趣(Gaurav,J.et al.“An approach to text classification using dimensionality reductionand combination of classifiers”,Proceedings of the 2004 IEEE International Conference onInformation Reuse and Integration,November 8-10 2004,pp.564-569;Huang,R.Q.,Hansen,J.H.L.“Dialect Classification on Printed Text using Perplexity Measure and ConditionalRandom Fields”,IEEE International Conference on Acoustics,Speech and Signal Processing,April 15-20 2007,4IV-993-IV-996.),并且已经有一些研究者利用文本倾向性实现了对文本的分类(Turney,P.D.“Mining the web for synonymsPMI-IR versus LSA on TOEFL”,Proceedings of the Twelfth European Conference on Machine Learning,BerlinSpringer-Verlag,2001,pp.491-502;Ye,Q.et al.“Sentiment classification for Chinese reviewsa comparisonbetween SVM and semantic approaches”,Proceedings of 2005 International Conference onMachine Learning and Cybernetics,August 18-212005,42341-2346.)。依照文本倾向性对文本进行分类又可以主要从两个方面展开,一是利用机器学习的方法(Chaovalit,P.,Zhou,L.“Movie review mininga comparison between supervised and unsupervised classificationapproaches”,Proceedings of the 38th Hawaii International Conference on System Sciences,2005.),一是利用基于语义分析的自然语言处理的方法(Turney,P.D.“Thumbs up or thumbsdown?Semantic orientation applied to unsupervised classification of reviews”,presented at theAssociation for Computational Linguistics 40th Anniversary Meeting,New Brunswick,N.J.,2002.)。文本倾向性分类已经被运用于英文、中文以及阿拉伯文(Ahmad,K.,Almas,Y.“Visualising sentiments in financial texts?”,Proceedings of the Ninth International Conferenceon Information Visualisation,2005,00363-368.)。 本专利技术主要使用的两种机器学习算法为无监督的K-means聚类算法和有监督的支持向量机(SVM)分类算法。K-means算法作为数据挖掘领域动态聚类划分算法里面最为常用的一类算法,已经被很多学者深入学习并运用到了诸多领域中,包括生物信息学(Guralnik,V.and Karypis,G.(2001),“A scalable algorithm for clustering protein sequences”,in Proc.Workshop Data Mining in Bioinformatics(BIOKDD),2001,pp.73-80;Han,K.F.and Baker,D.(1995),“Recurring local sequence motifs in proteins,”J.Mol.Bioll.,1995,Vol.251(1),pp.176-187.)、信息安全(李洋,“K-means聚类算法在入侵检测中的应用”,计算机工程,2007,33(14)154-156.)、模式识别(Filho,A.G.S.et al.“Hyperspectral Images Clustering onReconfigurable Hardware Using the K-Means Algorithm”,Proceedings of the 16th symposiumon Integrated Circuits and Systems Design 2003,pp.99-104.)、文本分类(Steinbach,M.,Karypis,G.,Kumar,V.“A Comparison of Document Clustering Techniques”,KDD Workshop on TextMining,2000.)等等。K-means是一种十分迅速有效的聚类算法,非常适合大数据集合,其中数据的属性值可以是离散的也可以是连续的。此外,很多学者还就如何提高K-means算法的效率研究出了在传统算法基础上改进的变种K-means算法(Xu,M.T.and Franti,P.“Aheuristic K-means clustering algorithm by kernel PCA”,2004 International Conference onImage Processing,October 24-272004,53503-3506.),并将其运用到了不同的领域。另一方面,为了弥补ANN的不足,Vapnik于1998年提出了SVM这一基于统计学习的数据挖掘工具(Vapnik,V.Statistical learning theory,New Yo本文档来自技高网...

【技术保护点】
一种讨论区集合中热点讨论区的预测方法,其特征在于,包括下列步骤: a)针对目标讨论区集合,确定待预测的时间窗口W↓[i+1]; b)获得目标讨论区集合内的各个讨论区在时间窗口W↓[i-1]和时间窗口W↓[i]内的特征向量,所述特 征向量由显示讨论区受关注程度的多个属性组成,其中,W↓[i]在时间上介于W↓[i-1]和W↓[i+1]之间; c)在W↓[i]内,以各个讨论区的特征向量作为数据对象对各个讨论区进行聚类分析,并以得到的一个或多个类中心作为W↓[i]内的 热点讨论区; d)以各个讨论区在W↓[i-1]内的特征向量作为输入并以W↓[i]内的热点讨论区作为输出进行SVM学习; e)以各个讨论区在W↓[i]内的特征向量作为上述学习后的SVM的输入,输出目标讨论区集合在W↓[i+1]内的 热点讨论区。

【技术特征摘要】

【专利技术属性】
技术研发人员:李楠梁循
申请(专利权)人:北京大学
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1