基于主题概率模型的微博传播群体划分与账户活跃度评估方法技术

技术编号:12225853 阅读:128 留言:0更新日期:2015-10-22 02:52
本发明专利技术涉及基于主题概率模型的微博传播群体划分与活跃度评估方法,有效解决按传播群体划分,将参与微博话题传播的账户划分为多个群组,量化每个群组中活跃的微博账户,方法是,以特定事件的关键词为基础,获取微博具体文本信息以及参与微博传播的账户集合,以单个微博的文本内容以及参与微博的账户集合输入,构造参与人员表,对样本库中的每一条微博基于主题概率生成模型,从构建的词汇表和参与人员表中根据模型中的群体-主题,主题-词以及群体-人抽样出词和参与人员,采用吉布斯抽样的方法进行计算,采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序,本发明专利技术方法简单,及时掌握微博热点、情感倾向和舆论引导。

【技术实现步骤摘要】

本专利技术涉及微博舆情监控领域,特别是基于主题概率模型自动划分在微博传播过 程中具有相似主题的群体的一种基于主题概率模型的微博传播群体划分与账户活跃度评 估方法。
技术介绍
近年来,微博凭借着快速便捷等特性成为了网民获取新闻时事、自我表达以及社 会参与的重要媒介,同时也成为了社会公共舆论、企业品牌和产品推广的重要平台。微博中 的话题更是成为了公众参与和获取社会焦点事件、综艺娱乐节目推广等的主要手段。 微博传播是一把双刃剑:一方面,微博为一些社会事件中的信息公开提供了一个 快速响应的平台,它在一定程度上弥补了传统媒体和其他网络工具的不足。用户可以通过 #话题名#创建或者参与到特定话题的讨论中去。例如,在两会期间,由人民日报创建起来 的#2015两会#,由央视新闻创建的#微博看两会#和由用户为微博新鲜事创建的#两会 #,这三个话题在两会期间成为了热门的话题,以微博看两会该话题为例,其中有2. 9万微 博账户关注了该话题,约有65万人参与到了该话题的讨论当中去;另一方面,微博不同于 传统新闻媒体,其新闻的发布存在重复性,且真实性无法保证,可能会被利用成为谣言传播 的载体、不满本文档来自技高网...

【技术保护点】
一种基于主题概率模型的微博传播群体划分与账户活跃度评估方法,其特征在于,包括以下步骤:(1)与特定事件相关的微博样本搜集:以特定事件的关键词为基础,基于爬虫技术或微博公共开放平台获取微博具体文本信息以及参与微博传播的账户集合,其中包括微博的原创账户集合,转发账户集合以及评论账户集合;(2)微博样本库中词汇表和参与人员表的构建:以单个微博的文本内容以及参与微博的账户集合输入,首先利用中科院中文分词系统对微博文本进行分词,将微博文本表示成多个关键词的形式,近而形成微博样本库上的词汇表;其次采用分割的方法,原理与分词相同,构造参与人员表;(3)主题概率模型生成:对样本库中的每一条微博d,d=1,2,...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘琰陈静尹美娟罗军勇常斌王煦中丁文博温玉辉
申请(专利权)人:中国人民解放军信息工程大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1