基于用户关系的博主兴趣社区发现方法技术

技术编号:10531410 阅读:134 留言:0更新日期:2014-10-15 12:10
本发明专利技术提出了一种新的基于用户关系的博主兴趣社区发现方法,并为舆情控制提供技术手段。本发明专利技术是利用现有微博开放平台,通过开放的API来接入,抓取微博博主及其特定时间段的内容,并对这些内容进行文本分析,从中提取出适当的若干人工兴趣标签,这些标签代表着博主在该特定时间段的兴趣。然后,我们对具有收听关系的博主的人工兴趣标签进行相似度比对,找出具有传播关系的博主的共同兴趣的子网,进而通过改进的GN算法完成子网上的社区发现,最终从基于兴趣的社区入手进行舆情的监控与信息传播的控制。本发明专利技术为微博博主的社区发现提供了一种新的方法,并为信息传播的控制提供了一种技术,具有较强的实践意义。

【技术实现步骤摘要】
【专利摘要】本专利技术提出了一种新的,并为舆情控制提供技术手段。本专利技术是利用现有微博开放平台,通过开放的API来接入,抓取微博博主及其特定时间段的内容,并对这些内容进行文本分析,从中提取出适当的若干人工兴趣标签,这些标签代表着博主在该特定时间段的兴趣。然后,我们对具有收听关系的博主的人工兴趣标签进行相似度比对,找出具有传播关系的博主的共同兴趣的子网,进而通过改进的GN算法完成子网上的社区发现,最终从基于兴趣的社区入手进行舆情的监控与信息传播的控制。本专利技术为微博博主的社区发现提供了一种新的方法,并为信息传播的控制提供了一种技术,具有较强的实践意义。【专利说明】
本专利技术属于互联网社区划分技术,具体涉及一种基于互联网上的用户关系的博主 兴趣的社区发现方法。
技术介绍
随着Web2. 0时代的发展,微博作为一种互联网社交网络服务,以其快捷精炼的特 点风靡全球。微博为用户构建了一个可以通过计算机、手机、MI软件和外部API接口等多 种方式发布140字以内的文本信息及图片、影音等多媒体内容的平台。用户基于社交与话 题这两方面,获取其关注与感兴趣的信息。正是微博庞大的用户群与快捷的消息发送方式 的特点,使得微博平台向用户提供了庞大的信息量。 微博不同于传统的社交媒体一对多的信息传播模式,它的传播具有迅捷性和裂变 性,这种信息传播的模式使得微博在突发事件的传播以及舆论的扩散方面具有更强的作用 力。鉴于微博传播的特性,如果无法有效对其发展规模与动向进行监控与引导,将会在网络 乃至现实社会造成严重影响,在这种情况下微博的舆情监控显得格外重要。同时,微博平台 中用户不仅是网站内容的浏览者,也成为了网站内容的创造者,信息的传播以博主用户为 单位,他们的言论和行为特征更加直接决定了网络信息的传播方向和影响范围。 社区的一般定义是同一社区内的节点与节点之间的连接很紧密,而社区与社区之 间的连接比较稀疏。将博主的传播关系与行为特征相结合进行社区划分,我们可以锁定某 一兴趣主题类的传播圈和传播关系,进而通过社区划分,实现信息传播的微博舆情控制等 具有现实意义的举措。 微博中,博主通过收听(或关注)关系上获取信息,通过听众(或粉丝)关系向下 传播信息,由此构成微博中的传播渠道。但是,博主通常有多个兴趣(可以通过提取博主微 博的关键词,给该博主"贴"上若干人工兴趣标签),不一定对每条信息都回复或转发,造成 实际的信息传播关系只是收听关系的一个子网。所以,单纯通过收听关系划分博主社区的 方式,没有多大实际意义;只有在用户兴趣关系的基础上发现社区,才能实现真正的社区节 点划分与控制。 在现有的微博研究中,对博主的社区划分方面的理论已经有许多。比较突出的是 博主自主选择加入的不同的小组或是微群,以便与志同道合的其他博主进行交流,但是这 样的划分方式,使得很多博主的内在区别被忽略。博主只能主动地进行社区选择,很可能本 身就忽略了自己的许多特性。因此,我们缺乏一种更加客观且完善的微博社区划分机制。从 博主发布的微博中可以看出博主的习惯用语、兴趣点所在以及性格特点。所以,基于对博主 发布内容的分析,可以从很大程度上对博主进行当前的兴趣分析,给博主打上个性化的人 工兴趣标签(为防止赘述,以下我们把"人工兴趣标签"简称为"标签"),进而对博主进行 标签分类,从而进行博主的兴趣社区的划分。同时鉴于微博的传播特点,在对博主兴趣社区 划分时应考虑到基于用户关系(某个共同兴趣)的传播链,进而进行基于用户关系的社区 发现。 本专利技术新提出,根据博主的微博内容和好 友收听(或关注)关系对其进行客观的直接划分。通过开放的API来接入,抓取微博博主 及其特定时间段的内容,包括发布的微博及其评论和转发,并对这些内容进行文本分析, 从中提取出适当的若干人工兴趣标签,这些人工兴趣标签代表着博王在该特定时间段的兴 趣。然后,我们对具有收听(或关注)关系的博主的人工兴趣标签进行相似度比对,找出有 传播关系的博主的共同兴趣的子网,进而通过GN算法完成子网上的社区发现。 本专利技术为微博博主的社区发现提供了一种新的方法,并为信息传播的控制提供了 一种技术。例如,如果希望把一类特定内容的信息的传播控制在其兴趣社区内,则可以先进 行兴趣社区发现,然后对该社区作为入手点进行操控,并对该社区与其它社区的连接进行 监视,在必要的情况下,切断该社区与其它社区的连接。
技术实现思路
本专利技术提出了一种新的,并为舆情控制提 供技术手段。本专利技术是利用现有微博开放平台,通过开放的API来接入,抓取微博博主及其 特定时间段的内容,并对这些内容进行文本分析,从中提取出适当的若干人工兴趣标签,这 些标签代表着博主在该特定时间段的兴趣。然后,我们对具有收听(或关注)关系的博主 的人工兴趣标签进行相似度比对,找出具有传播关系的博主的共同兴趣的子网,进而通过 GN算法完成子网上的社区发现,最终从基于兴趣的社区入手进行舆情的监控与信息传播的 控制。本专利技术为微博博主的社区发现提供了一种新的方法,并为信息传播的控制提供了一 种技术,具有较强的实践意义。 1.数据抓取 目前国内所有的微博平台都是开放的,这些开放的微博平台都相继公布了针对 其平台可以进行使用的API。基于这些API,可以获得抓取微博数据的基础与途径。整个微 博数据抓取程序设计框架如图1所示,主要的内容如下:微博开放平台、OAuth认证授权、 API访问、API源程序、访问队列控制程序、存储控制程序及SQL Server数据库。抓取博主 列表中所有博主截止当前的最近K个月的所有微博。如果该博主最近K个月的微博总条数 大于T条,则认为该博主常发微博,是价值型博主,继续下面的步骤;否则放弃此博主,处理 下一个微博博主。本专利技术中,将利用这些价值型博主最近K个月发布的微博,确定相应博主 的最近兴趣。 2.数据预处理 收集数据后,需要对数据进行预处理。首先,去除微博中的符号,如表情符号,@标 志及其后面的博主昵称、话题标志" ## "以及标点、空格、回车等内容。之后,对获取的文本 进行分词,这里我们选择使用中科院分词系统ICTLAS。分词后,去除代词、语气助词等类似 的词语,将这类出现频率很高但对于博主标签挖掘没有帮助的词语统称停用词。本专利采 用停用词表法去除停用词。 3.关键词提取 对微博数据预处理后,进行博主标签提取。标签的类型有如下两类: a.对于字数多于Μ字的微博,使用TF-IDF方法提取出微博内容中的关键词; b.对于字数小于等于Μ字的微博,直接提取出博主的微博内容中的名词和形容词 作为该微博的关键词。 下面列出具体方法: (1)对于基于TF-IDF方法的博主关键词的提取,我们使用TF-IDF方法。TF-IDF 作为一种统计方法,主要是用来评估在一个文件集或一个语料库中的某个文件中,某些字 词的重要性。应用在本专利技术中,为每位博主提供兴趣爱好的关键字。 a. TF(Term Frequency):即词频,表示一个字词与某个文档的相关性。在这里为一 个字词在某条微博中出现的频率。公式为 【权利要求】1. 首先获取某个微博博主的基本信息,构成一个基本的博主列本文档来自技高网
...

【技术保护点】
首先获取某个微博博主的基本信息,构成一个基本的博主列表。抓取博主列表中所有博主截止当前的最近6个月(即选取K个月之内的微博,此处K=6)的所有微博。如果该博主最近6个月的微博总条数大于100条(即微博总数大于T,此处T=100),则认为该博主常发微博,是价值型博主,继续下面的步骤;否则放弃此博主,处理下一个微博博主。

【技术特征摘要】

【专利技术属性】
技术研发人员:梁循柴若琪林航朱浩然马跃峰
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1