基于微博文本的微博用户兴趣发现方法及系统技术方案

技术编号：10296516 阅读：195 留言：0更新日期：2014-08-07 01:24

本发明专利技术提出一种基于微博文本的微博用户兴趣发现方法，包括以下步骤：从互联网上获取数据信息，其中，数据信息包括微博文本、转发信息和关注信息；对微博文本进行分析以获取先验知识，其中，先验知识包括用户互动关系和种子词；对微博文本进行主题聚类以生成主题模型；以及将先验知识集成至主题模型中以对用户的兴趣进行发现。本发明专利技术实施例的方法能够快速的从海量微博用户及其文本中发现用户兴趣分布，另外，该方法自适应性好、易于扩展。本发明专利技术还提供了一种基于微博文本的微博用户兴趣发现系统。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提出一种基于微博文本的微博用户兴趣发现方法，包括以下步骤：从互联网上获取数据信息，其中，数据信息包括微博文本、转发信息和关注信息；对微博文本进行分析以获取先验知识，其中，先验知识包括用户互动关系和种子词；对微博文本进行主题聚类以生成主题模型；以及将先验知识集成至主题模型中以对用户的兴趣进行发现。本专利技术实施例的方法能够快速的从海量微博用户及其文本中发现用户兴趣分布，另外，该方法自适应性好、易于扩展。本专利技术还提供了一种基于微博文本的微博用户兴趣发现系统。【专利说明】基于微博文本的微博用户兴趣发现方法及系统
本专利技术涉及计算机应用技术与互联网
，特别涉及一种基于微博文本的微博用户兴趣发现方法及系统。
技术介绍
随着网络与Web2.0的不断发展，微博已经成为了人们日常生活中记录事件、发表看法的重要渠道。在微博上，不同的用户有着不同的兴趣爱好，发布着不同领域的微博。通过对用户发布的微博文本进行分析，我们可以推断出用户的兴趣所在。也正是由于这个原因，各大厂商都在致力于从微博上挖掘单个用户和所有用户的兴趣分布并加以聚类，从而为今后的决策提供数据支持。但是，以新浪微博为例，新浪微博共有约5亿注册用户，每天有超过2亿条新微博被发布。如果这些微博全由人工处理，显然既费时费力，又不能把握最新的用户兴趣。
技术实现思路
本专利技术旨在至少在一定程度上解决上述相关技术中的技术问题之一。为此，本专利技术的一个目的在于提出一种基于微博文本的微博用户兴趣发现方法，该方法能够快速的从海量微博用户及其文本中发现用户兴趣分布，另外，该方法自适应...
基于微博文本的微博用户兴趣发现方法及系统

【技术保护点】
一种基于微博文本的微博用户兴趣发现方法，其特征在于，包括以下步骤：从互联网上获取数据信息，其中，所述数据信息包括微博文本、转发信息和关注信息；对所述微博文本进行分析以获取先验知识，其中，所述先验知识包括用户互动关系和自动提取的种子词；对所述微博文本进行主题聚类以生成主题模型；以及将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐华，杨炜炜，王玮，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人