【技术实现步骤摘要】
基于聚类信息的高相关微博检索方法
本专利技术涉及一种基于聚类信息的高相关微博检索方法,属于数据挖掘领域。
技术介绍
互联网的广泛使用快速的增加了信息存储量和网络访问量,而社交媒体(例如Twitter,Weibo,Facebook)的出现更深刻地改变了人们的生产和消费信息的方式,他和主流新闻媒体网站(如CNN或nytimes。com)最大的不同是社交网络中的人即是信息的消费者也是信息的生产者,这使得社交网络中的信息不仅来源多样并且杂乱无章,用词口语化,增加了用户获取信息的难度。家庭用户用电数据分解是通过非侵入的方式,基于对电源总接口处测得的总用电数据的细节分析,确定单独的电器的具体工作情况。目前相关研究已取得了一定进展,主要实现方法包括以用电功率变化量为特征在二维特征空间进行聚类、利用数据建立隐马尔科夫模型进行用电状态预测、基于非负矩阵分解的稀疏编码等。但是传统的这些技术难以适用于组成越来越复杂的用电数据,对用电数据分解结果的误差较大,准确性难以为用户所接受。历史研究表明微博信息过滤的性能不能达到人们预期效果的主要原因是,用户输入的检索词不能精确表达用户的真实查询意 ...
【技术保护点】
1.基于聚类信息的高相关微博检索方法,其特征在于,包括以下步骤:1).用BM25检索模型得到微博的初步检索结果;2).用NMF实现微博文本聚类,将类簇提取出来辅助检索结果排序:如果两个文档的检索相关度基本相同,那么属于较重要类簇的文档就应该具有更高的相关度;最终优化公式如下:
【技术特征摘要】
1.基于聚类信息的高相关微博检索方法,其特征在于,包括以下步骤:1).用BM25检索模型得到微博的初步检索结果;2).用NMF实现微博文本聚类,将类簇提取出来辅助检索结果排序:如果两个文档的检索相关度基本相同,那么属于较重要类簇的文档就应该具有更高的相关度;最终优化公式如下:s.t.U≥0,H≥0其中,||*||F代表2范数;W代表词文档矩阵,V矩阵聚类结果矩阵;U矩阵代表每个文档属于每个类簇的程度;α和β代表矩阵权值,最小化目标函数F代表W矩阵正确分解为U矩阵和V矩阵;对目标函数分别对U,V两个矩阵求导:针对此优化目标应用KKT条件,在保证矩阵非负的情况下,得到等式结果如下:2WV+UVTV+2αU=0-2WTU+VTU+2βV=0根据恒等式,得出U和V矩阵的迭代公式如下:其中U(i,k)代表迭代过程中的U矩阵,V(i,k)代表迭代过程中的V矩阵;在两个迭代公式下,当F收敛时求得U矩阵和V矩阵;U矩阵每行表示对应行微博的聚类结果,属于行最大元素的所对应的类簇;3).根据聚类结果类簇,把类簇文本集作为一个文本来处理,计算类簇的BM25值,再根据类簇BM25值对步骤1).得到的结果进行修正:rescore(D,Q)=score(D,Q)·score(Clui,Q)其中,score(D,Q)表示微博的BM25值,score(Chui,Q)表示该微博所对应类簇的BM25值,修正后的rescore(D,Q)代...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。