一种基于微博数据的特定群体发现及扩充方法技术

技术编号:14965934 阅读:94 留言:0更新日期:2017-04-02 20:34
本发明专利技术涉及一种基于微博数据的特定群体发现及扩充方法,属于社交网络分析及数据挖掘领域。本发明专利技术具体步骤为,采集相关群体信息;进行信息的整合与映射;针对文本数据进行特征提取;计算用户相似度;类别群体自检测;特定群体属性提取,判定类别,群体扩充。本发明专利技术巧妙的避免了使用网络模型中数据稀疏或不全面而不能进行群体识别的问题。本发明专利技术可以投入大规模数据计算,具有较高的稳定性。

【技术实现步骤摘要】

本方法涉及对于社交网络中一些特定文本群体的发现及扩充,尤其是微博数据的特定群体发现及扩充,属于社交网络分析及数据挖掘领域。
技术介绍
社交网络中用户可以自主的发布自己的信息同时也可以看到他人的分享信息,进而构建虚拟时代的社会网络。这个共享平台具有及时共享性、实时性、互动性等特点,同时也具备传统的社交社会的传播特性,已经成为人们工作和生活的组成部分。在微博平台中,对用户产生的大量文本数据,进行数据挖掘可以获得很高的信息价值。因此,需要使用高效的数据挖掘方法和机器学习算法来进行有用信息的挖掘,充分把社交网络文本信息中的有价值的信息提取出来,其中一项有价值的信息就是社交媒体群体的发现和扩充。文本数据的特征提取是指对全量文本数据分类聚类时需要对数据进行特征提取,选择权重较大、关键性词汇作为文本的特征,便于相似度计算和分类聚类。其中涉及到的技术有分词、词频统计、关键词提取等,对于每个词的权重计算使用词频或是TF-IDF进行权重计算,而特征提取算法主>要有:信息增益算法本文档来自技高网...

【技术保护点】
一种基于微博数据的特定群体发现及扩充方法,其特征包括以下步骤:步骤一、采集相关群体信息:基于爬虫技术或微博公开的一些数据资源,获取到需要分析的群体信息,这些信息包括:微博用户所发的文本信息、用户所做的评论的文本信息、用户在微博上所进行的互动信息,包括评论操作、转发关系、点赞操作,用户的基本属性,包括粉丝数、关注数,关注关系;步骤二、对群体信息进行整合与映射:在步骤一获取的样本数据中,首先去标签化,并通过层级关系解析数据,获得用户‑微博文本映射、用户‑评论文本映射,并保留用户‑关注关系、用户‑粉丝关系、用户‑转发关系;步骤三、针对文本数据进行特征提取:对于用户所发表的微博内容,使用相对熵来进行特...

【技术特征摘要】
1.一种基于微博数据的特定群体发现及扩充方法,其特征包括以下步
骤:
步骤一、采集相关群体信息:基于爬虫技术或微博公开的一些数据资源,
获取到需要分析的群体信息,这些信息包括:微博用户所发的文本信息、
用户所做的评论的文本信息、用户在微博上所进行的互动信息,包括评论
操作、转发关系、点赞操作,用户的基本属性,包括粉丝数、关注数,关
注关系;
步骤二、对群体信息进行整合与映射:在步骤一获取的样本数据中,
首先去标签化,并通过层级关系解析数据,获得用户-微博文本映射、用户
-评论文本映射,并保留用户-关注关系、用户-粉丝关系、用户-转发关系;
步骤三、针对文本数据进行特征提取:对于用户所发表的微博内容,
使用相对熵来进行特征提取,获取每个用户...

【专利技术属性】
技术研发人员:吴松泽张华平徐程程王洋王琦李高超付戈
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1