基于兴趣分析的微博博主社区分类方法技术

技术编号:9667896 阅读:282 留言:0更新日期:2014-02-14 06:19
本发明专利技术新提出基于兴趣分析的微博博主社区分类方法,根据博主的微博内容对其进行客观的直接划分。现有的对微博内容的研究中,局限于将其用于各种事件的关键词提取,而没有根据内容对博主进行直观的分析。在本发明专利技术中,我们使用适当的API接入技术,在抓取微博信息的基础上,对每个博主发布的微博信息进行分析,从中抽取出适合每个博主的若干人工标签,并根据所有博主的标签集合来对博主进行分类。本发明专利技术对微博博主的分类提供了一种新的方法,并对微博博主进行个性化推荐等提供了一种新的参考,具有较强的实践意义。

【技术实现步骤摘要】

本专利技术属于社区分类技术,具体涉及一种基于标签提取的微博博主社区分类方 法。
技术介绍
随着信息技术以及网络的高速发展,人们可以选择的Web2.0服务越来越多,其中 微博类网站的出现则是满足了人们即时交流分享资讯以及与他人沟通的需求。微博作为一 个基于用户关注与微博转发的信息分享与传播平台,其上的博主可以通过计算机、手机、MI 软件和外部API接口等多种方式发布140个字符以内的微博信息,基本不受时空的限制,信 息更新更加便捷与迅速,具有高度的即时性和强大的交互性等特点。与传统博客相比,微博 的主要特点有“短、灵、快”,更加能够迎合现代人的快节奏生活。因此,微博以其快速便捷的 特性迅速风靡全球。目前,我国微博用户数量已超过3亿。在Web2.0时代,用户不仅是网站内容的浏览者,也成为了网站内容的创造者。用 户是网络的灵魂,因而对用户的特性分析成为网络发展的重点。在微博这个基于博主用户 信息发布的平台中,博主的行为特征更加直接地影响到平台的发展,对博主的兴趣分析显 得尤为重要。除了部分喜爱潜水、基本不发言或是很少转发的博主,其他博主使用微博的最主 要方式就是随时随地发布自己的状态、心情、事件等信息。从博主发布的微博中可以看出博 主的习惯用语、兴趣点所在以及性格特点。所以基于对博主发布内容的分析,可以从很大程 度上对博主进行当前的兴趣分析,给博主打上个性化标签,进而对博主进行标签分类,为今 后给博主提供个性化的服务(例如,相似微博的推荐、志趣相似博主的推荐)提供支持。虽然在现有的微博研究中,对博主分类方面的理论已经有许多。比较突出的是将 博主分为三类:大众传媒、名人以及草根阶层,还能够按照所处的专业领域对其进行分类。 但是这样的分类对于博主个人研究远远不够。这些分类仅仅是比较粗略的划分,每个分类 内的博主区别度很大。组成草根阶层的大多数普通博主并不能得到很好的划分。在国内的 微博平台中,尽管博主可以选择加入不同的小组或是微群,以便与志同道合的其他博主进 行交流,但是很多博主的内在区别仍然被忽略。博主只能主动地对自己进行分类,很可能自 己本身也忽略了自己的许多特性,缺乏一种更加客观且完善的划分机制。本专利技术新提出,根据博主的微博内容对其 进行客观的直接划分。在本专利技术中,我们使用适当的API接入技术,在抓取微博信息的基 础上,对每个博主发布的微博信息进行分析,从中抽取出适合博主的若干人工标签(为防 止赘述,以下用“标签”代替“人工标签”),并根据每个博主的标签来对博主进行分类。本 专利技术对微博博主的分类提供了一种新的方法,并为以后对微博博主进行推荐提供了一种参 考。例如,如果微博博主的大部分标签属于某一类别,则可以为他推荐这一类别中其他标 签;而对于大部分标签都在相同几个类别中的两名博主,可将对方作为好友推荐。
技术实现思路
本专利技术是利用现有微博开放平台,通过开放的API来接入,抓取微博博主及其特 定时间段的内容,包括发布的微博及其评论和转发,并对这些内容进行文本分析,从中提取 出适合的若干标签,从而最终实现对微博博主的特征分类。目前国内所有的微博平台都是开放的,这些开放的微博平台都相继公布了针对其 平台可以进行使用的API。基于这些API,可以获得抓取微博数据的基础与途径,整个微博 数据抓取程序设计框架如图2所示,主要的内容如下:微博开放平台、OAuth认证授权、API 访问、API源程序、访问队列控制程序、存储控制程序及SQL Sever数据库。在取得数据之后,对微博内容经过预处理,还需对微博进行分词处理并去除停用o对已去除停用词的微博数据,进行标签提取。标签的类型有如下两类:1.提取出博主的微博内容中的关键词,如兴趣爱好、生活习性等;2.提取出博主的微博内容中的常用词,如口头禅、习惯用语等。在关键词提取中,可以使用已有的TF-1DF方法。该方法具体内容如下:1.TF-1DF作为一种统计方法,主要是用来评估在一个文件集或一个语料库中的某 个文件中,某些字词的重要性。应用在本专利技术中,就可以作为评估一条微博中的字词的重要 性,通过重要性排序来提取出微博中的关键词。2.TF(Term Frequency):即词频,表示一个字词与某个文档的相关性。在这里为一 个字词在某条微博中出现的频率。公式为N/Nt,其中N是这个字词在某条微博中出现的次 数,Nt则是该微博中包括的所有字词的总数。3.1DF(Inverse Document Frequency):即反文档频率,表不一个字词代表文档的 主题的权重大小。主要是通过包含了该字词的微博数量和微博的总数量来比较的。出现的 次数越多,权重越小。公式是_log(D/Dt),其中D是该博主的所有微博中,包含了该字词的 微博的总数;Dt则是某个博主的微博总条数。4.最后以字词的TF*IDF的值作为其TF-1DF分数,进行降序排序,作为该博主的关 键词。常用词提取方法则如下所示:1.将经过预处理后一条微博中的所有实词、助词和叹词提取出来。这其中就会包 括能够体现博主行文习惯、性格特点的词。2.将这些词去重复,也作为该博主的关键词。将上述的关键词与常用词结合,作为每个博主的关键词。统计这些关键词在该微 博博主最近30天发布微博(除去转发的微博)中的使用次数,并进行降序排序,取前L个 (如果少于L个则直接使用该数目,为了方便,我们仍记此数目为L),作为该微博博主的标签。每个博主得到L个标签,对于全体U个博主(即所有被选取的博主),将所有标签 集合起来,得到一个全体博主标签总集合,使用如下算法对全体U个博主进行社区分类。先 给出如下两个概念的定义:1.共现:当两个标签同时出现在同一个博主的标签集合中时,称这两个标签共现一次。2.分类度:已分入各个类的节点数占总节点数的比例。这是一种基于标签共现的网络分析:1.将上述得到的每个博主的L个标签集合起来,对全体博主标签总集合进行去重 复,并进行频数的统计,按照频数的降序排列。这里的频数指的是有多少个不同博主出现了 该标签。同时对频数设定阈值为3,去掉频数为I和2的标签。对数据进行这个处理的依据 是:标签出现的频率越高,与其共现的标签也会越多;反之成立。因而去掉频数为I和2的 标签,能够对剩下的标签进行更加清晰的分析。2.对数据进行处理得到每个标签相互之间的共现次数,得到共现次数的最大值为 C03.将标签放置于网络图中进行分析,一个标签作为一个节点。在网络图中,先将共 现值为C的每两个节点分别无向连接,再将共现值为C-1的每两个节点分别无向连接,依次 类推。直到分类度达到90%,停止该步骤。4.去掉网络图中单独的节点和只有两个节点相连的分量,以剩下的各个连通图 作为各个分类。5.在得到标签的分类后,即可对博主进行分析。根据博主所拥有的L个标签主体 属于哪个类别,即可判断该博主的主要特征。在得到标签的分类后,可将该类别中的其他标签推荐给该博主,或是将与该博主 标签相似的博主作为其推荐好友。具体规则如下所示:规则1:对于已打好L个标签的特定博主,先向其推荐频繁集中值(即共现值)最 大且不在该博主标签集合中的标签,然后按照频繁集中值递减推荐;规则2:对于已打好L个标签的特定博主,分析该博主的标签最多属于某一类,将 这一分类中的其他标签本文档来自技高网
...

【技术保护点】
对于抓取的微博数据,只选取在最近六个月发布微博超过100条的博主作为重量级用户加入表中。

【技术特征摘要】
1.对于抓取的微博数据,只选取在最近六个月发布微博超过100条的博主作为重量级 用户加入表中。2.对博主的经过预处理、分词及去除停用词的每条微博进行字数判断。超过30个字符 的微博使用TF-1DF算法进行关键词提取;字符数少于等于30个字符的微博直接取微博中 的所有实词、助词和叹词作为关键词,这些词能够体现博主的行文习惯、性格特点。3.得到每个博主的关键词后,统计这些关键词在该微博博主最近30天发布微博(除去 转发的微博)中的使用次数,并进行降序排序,取前L个,作为该微博博主的人工标签(以 下简称“标签”)。4.对所有得到的标签,使用数组按照(标签值,所属博主)(即array[]= (tag,user)) 的形式存储,并进行频数的统计,按照频数的降序排列,以数组(frequency[] = (tag,频 数))存储。这里的频数指的是有多少个不同博主出现了该标签。同时对频数设定阈值为 3,去掉频数为I和2的标签。5....

【专利技术属性】
技术研发人员:施晓菁梁循曹润周晨曦
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1