基于兴趣分析的微博博主社区分类方法技术

技术编号：9667896 阅读：282 留言：0更新日期：2014-02-14 06:19

本发明专利技术新提出基于兴趣分析的微博博主社区分类方法，根据博主的微博内容对其进行客观的直接划分。现有的对微博内容的研究中，局限于将其用于各种事件的关键词提取，而没有根据内容对博主进行直观的分析。在本发明专利技术中，我们使用适当的API接入技术，在抓取微博信息的基础上，对每个博主发布的微博信息进行分析，从中抽取出适合每个博主的若干人工标签，并根据所有博主的标签集合来对博主进行分类。本发明专利技术对微博博主的分类提供了一种新的方法，并对微博博主进行个性化推荐等提供了一种新的参考，具有较强的实践意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于社区分类技术，具体涉及一种基于标签提取的微博博主社区分类方法。
技术介绍
随着信息技术以及网络的高速发展，人们可以选择的Web2.0服务越来越多，其中微博类网站的出现则是满足了人们即时交流分享资讯以及与他人沟通的需求。微博作为一个基于用户关注与微博转发的信息分享与传播平台，其上的博主可以通过计算机、手机、MI 软件和外部API接口等多种方式发布140个字符以内的微博信息，基本不受时空的限制，信息更新更加便捷与迅速，具有高度的即时性和强大的交互性等特点。与传统博客相比，微博的主要特点有“短、灵、快”，更加能够迎合现代人的快节奏生活。因此，微博以其快速便捷的特性迅速风靡全球。目前，我国微博用户数量已超过3亿。在Web2.0时代，用户不仅是网站内容的浏览者，也成为了网站内容的创造者。用户是网络的灵魂，因而对用户的特性分析成为网络发展的重点。在微博这个基于博主用户信息发布的平台中，博主的行为特征更加直接地影响到平台的发展，对博主的兴趣分析显得尤为重要。除了部分喜爱潜水、基本不发言或是很少转发的博主，其他博主使用微博的最主要方式就是随时随地发布自己的状态、心情、事件等信息。从博主发布的微博中可以看出博主的习惯用语、兴趣点所在以及性格特点。所以基于对博主发布内容的分析，可以从很大程度上对博主进行当前的兴趣分析，给博主打上个性化标签，进而对博主进行标签分类，为今后给博主提供个性化的服务(例如，相似微博的推荐、志趣相似博主的推荐)提供支持。虽然在现有的微博研究中，对博主分类方面的理论已经有许多。比较突出的是将博主分为三类...

【技术保护点】
对于抓取的微博数据，只选取在最近六个月发布微博超过100条的博主作为重量级用户加入表中。

【技术特征摘要】
1.对于抓取的微博数据，只选取在最近六个月发布微博超过100条的博主作为重量级用户加入表中。2.对博主的经过预处理、分词及去除停用词的每条微博进行字数判断。超过30个字符的微博使用TF-1DF算法进行关键词提取；字符数少于等于30个字符的微博直接取微博中的所有实词、助词和叹词作为关键词，这些词能够体现博主的行文习惯、性格特点。3.得到每个博主的关键词后，统计这些关键词在该微博博主最近30天发布微博(除去转发的微博)中的使用次数，并进行降序排序，取前L个，作为该微博博主的人工标签(以下简称“标签”)。4.对所有得到的标签，使用数组按照(标签值，所属博主)(即array[]= (tag,user)) 的形式存储，并进行频数的统计，按照频数的降序排列，以数组(frequency[] = (tag,频数))存储。这里的频数指的是有多少个不同博主出现了该标签。同时对频数设定阈值为 3，去掉频数为I和2的标签。5....

【专利技术属性】
技术研发人员：施晓菁，梁循，曹润，周晨曦，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人