一种微博情感可视化方法技术

技术编号:10804814 阅读:72 留言:0更新日期:2014-12-24 11:49
本发明专利技术公开了一种微博情感可视化方法,基于统计获得的关键词词频数据及情感计算获得的8维情感结果,根据相关策略做出微博热点事件全国关注趋势图、微博热点事件情感全国分布图及微博热点事件地区分布图。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,基于统计获得的关键词词频数据及情感计算获得的8维情感结果,根据相关策略做出微博热点事件全国关注趋势图、微博热点事件情感全国分布图及微博热点事件地区分布图。【专利说明】
本专利技术涉及微博情感分析方法领域,具体是。
技术介绍
情感计算成为当前热门研究领域之一,文本情感计算尤为火热。随着微博这种短文本消息模式的兴起,大量的富含情感特征的文本可以轻松的获得,为文本情感研究提供了便利。由于文本情感度量上的难点,使得文本情感可视化面临诸多难题,微博情感可视化同样如此。
技术实现思路
本专利技术的目的是提供,以实现直观形象的展示微博文本情感。 为了达到上述目的,本专利技术所采用的技术方案为: ,其特征在于:包括以下步骤: (I)、扩充指定话题关键词集合: 由于微博内容上的口语化,获取到的指定话题微博数据中,指定话题原有的种子关键词并不是规范化表述,此时需要将指定话题原有的的种子关键词口语话、俚语化,扩充步骤如下: (1.1)、将指定话题微博文本分词,统计词频,并确定指定话题原有的种子关键词; (1.2)、按词频排序,取前20个词作为候选指定话题种子关键词; (1.3)、根据公式(I)计算20个候选指定话题种子关键词与指定话题原有的种子关键词的相似度: JL, μ (word _ seed,., word 丨) 「mill d =y log--=----(i) L0011」^ piword _ seed 丨)p( word,.) 其中,word_seedj表示指定话题原有的种子关键词,Wordi表示候选指定话题种子关键词,P (word_seedj, Wordi)表示指定话题原有的种子关键词与候选指定话题种子关键词在微博文本中同时出现的概率,P (word_seedj)表示指定话题原有的种子关键词在微博文本中出现的概率,P (word,)表示候选指定话题种子关键词在微博文本中出现的概率,d表示候选指定话题种子关键词与指定话题原有的种子关键词的相似性; (1.4)、根据步骤(1.3)的计算结果,取相似度排名前10个的候选指定话题种子关键词作为扩充的种子关键词,扩充的种子关键词与指定话题原有的种子关键词一起作为话题关键词集合,记为K ; (2)、分离指定话题微博数据:将指定话题微博数据按照微博所属城市拆分为地区微博数据,记为Dcdty ;根据微博发布时间,以天为单位,将指定话题微博数据拆分为时间微博数据,记为Dtime ; (3)、将步骤(2)获取的地区微博数据按照时间以天为单位拆分为地区时分微博数据,记为Dc^tinre; (4)、统计指定话题微博数据分离后的时间微博数据Dtime中的种子关键词的频率,按天计算所有种子关键词的频率和即为指定话题微博数据中该话题当天的关注度,根据统计数据,采用折线图,不同话题选择不同的颜色区分,以关键词频率为纵轴,以时间为横轴,即可得到以天为单位的指定话题指定时间段内全国关注度趋势图;统计地区时分微博数据Dcdt/-中的种子关键词的频率,按照上述方法,以关键词频率为纵轴,以时间及城市为横轴,即可得到指定话题地区关注度趋势对比图,当前话题地区关注度趋势对比图中采用簇状柱状图表示对比信息; (5)、作指定话题全国情感分布图及地区分布图,过程如下: (5.1)、计算指定话题微博数据的时间微博数据Dtime及地区时分微博数据Deitytime ;获得指定话题每天的8维微博情感结果,如公式(2)所示: 「001 9? P = (P P P P PP P P ') ι_νν IKv^hate, ^anger,^sorrow,anxiety,surprise,Wove,^expect^ 其中,公式(2)中的向量元素依次表示指定话题微博在憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感下的情感强度值; (5.2)、采用三维堆积柱状图表示指定话题微博每天的情感强度值,分别使用RGB色 #EE9572、#9AC0CD、#CD8162、#5CACEE、#5D478B、#6E8B3D、#8B2500、#3A5FCD 表示憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感,以情感强度为横轴,以时间线及地区为纵轴,做出指定话题微博地区情感分布图,并以情感强度为横轴,以时间线为纵轴,做出指定话题微博全国情感分布图。 本专利技术基于统计获得的关键词词频数据及情感计算获得的8维情感结果,根据相关策略做出微博热点事件全国关注趋势图、微博热点事件情感全国分布图及微博热点事件地区分布图,可直观形象的展示微博文本情感。 【专利附图】【附图说明】 图1为本专利技术中指定话题指定时间段内全国关注度趋势图。 图2为本专利技术中指定话题地区关注度趋势对比图。 图3为本专利技术中指定话题微博地区情感分布图。 图4为本专利技术中指定话题微博全国情感分布图。 【具体实施方式】 ,包括以下步骤: (I)、扩充指定话题关键词集合: 由于微博内容上的口语化,获取到的指定话题微博数据中,指定话题原有的种子关键词并不是规范化表述,此时需要将指定话题原有的的种子关键词口语话、俚语化,扩充步骤如下: (1.1)、将指定话题微博文本分词,统计词频,并确定指定话题原有的种子关键词; (1.2)、按词频排序,取前20个词作为候选指定话题种子关键词; (1.3)、根据公式(I)计算20个候选指定话题种子关键词与指定话题原有的种子关键词的相似度: piword seed.,word.) ^ = XlOg.; ,, - , ,, ,,Cl) j j(I SCCCl ■ ) f.)\ W Ol (1-) 其中,word_seedj表示指定话题原有的种子关键词,Wordi表示候选指定话题种子关键词,P (word_seedj, Wordi)表示指定话题原有的种子关键词与候选指定话题种子关键词在微博文本中同时出现的概率,P (word_seedj)表示指定话题原有的种子关键词在微博文本中出现的概率,P (word,)表示候选指定话题种子关键词在微博文本中出现的概率,d表示候选指定话题种子关键词与指定话题原有的种子关键词的相似性; (1.4)、根据步骤(1.3)的计算结果,取相似度排名前10个的候选指定话题种子关键词作为扩充的种子关键词,扩充的种子关键词与指定话题原有的种子关键词一起作为话题关键词集合,记为K ; (2)、分离指定话题微博数据:将指定话题微博数据按照微博所属城市拆分为地区微博数据,记为Dcdty ;根据微博发布时间,以天为单位,将指定话题微博数据拆分为时间微博数据,记为Dtime ; (3)、将步骤(2)获取的地区微博数据按照时间以天为单位拆分为地区时分微博数据,记为Dc^tinre; (4)、统计指定话题微博数据分离后的时间微博数据Dtime中的种子关键词的频率,按天计算所有种子关键词的频率和即为指定话题微博数据中该话题当天的关注度,根据统计数据,采用折线图,不同话题选择不同的颜色区分,以关键词频率为纵轴,以时间为横轴,即可得到以天为单位的指定话题指定时间段内全国关注度趋势图,如图1所示;统计地区时分微博数据Dcdt/-本文档来自技高网...

【技术保护点】
一种微博情感可视化方法,其特征在于:包括以下步骤:(1)、扩充指定话题关键词集合:由于微博内容上的口语化,获取到的指定话题微博数据中,指定话题原有的种子关键词并不是规范化表述,此时需要将指定话题原有的的种子关键词口语话、俚语化,扩充步骤如下:(1.1)、将指定话题微博文本分词,统计词频,并确定指定话题原有的种子关键词;(1.2)、按词频排序,取前20个词作为候选指定话题种子关键词;(1.3)、根据公式(1)计算20个候选指定话题种子关键词与指定话题原有的种子关键词的相似度:d=Σj=1nlogp(word_seedj,wordi)p(word_seedj)p(wordi)---(1)]]>其中,word_seedj表示指定话题原有的种子关键词,wordi表示候选指定话题种子关键词,p(word_seedj,wordi)表示指定话题原有的种子关键词与候选指定话题种子关键词在微博文本中同时出现的概率,p(word_seedj)表示指定话题原有的种子关键词在微博文本中出现的概率,p(wordi)表示候选指定话题种子关键词在微博文本中出现的概率,d表示候选指定话题种子关键词与指定话题原有的种子关键词的相似性;(1.4)、根据步骤(1.3)的计算结果,取相似度排名前10个的候选指定话题种子关键词作为扩充的种子关键词,扩充的种子关键词与指定话题原有的种子关键词一起作为话题关键词集合,记为K;(2)、分离指定话题微博数据:将指定话题微博数据按照微博所属城市拆分为地区微博数据,记为Dcity;根据微博发布时间,以天为单位,将指定话题微博数据拆分为时间微博数据,记为Dtime;(3)、将步骤(2)获取的地区微博数据按照时间以天为单位拆分为地区时分微博数据,记为Dcitytime;(4)、统计指定话题微博数据分离后的时间微博数据Dtime中的种子关键词的频率,按天计算所有种子关键词的频率和即为指定话题微博数据中该话题当天的关注度,根据统计数据,采用折线图,不同话题选择不同的颜色区分,以关键词频率为纵轴,以时间为横轴,即可得到以天为单位的指定话题指定时间段内全国关注度趋势图;统计地区时分微博数据Dcitytime中的种子关键词的频率,按照上述方法,以关键词频率为纵轴,以时间及城市为横轴,即可得到指定话题地区关注度趋势对比图,当前话题地区关注度趋势对比图中采用簇状柱状图表示对比信息;(5)、作指定话题全国情感分布图及地区分布图,过程如下:(5.1)、计算指定话题微博数据的时间微博数据Dtime及地区时分微博数据Dcitytime;获得指定话题每天的8维微博情感结果,如公式(2)所示:E=(ehate,eanger,esorrow,eanxiety,esurprise,elove,ejoy,eexpect)  (2)其中,公式(2)中的向量元素依次表示指定话题微博在憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感下的情感强度值;(5.2)、采用三维堆积柱状图表示指定话题微博每天的情感强度值,分别使用RGB色#EE9572、#9AC0CD、#CD8162、#5CACEE、#5D478B、#6E8B3D、#8B2500、#3A5FCD表示憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感,以情感强度为横轴,以时间线及地区为纵轴,做出指定话题微博地区情感分布图,并以情感强度为横轴,以时间线为纵轴,做出指定话题微博全国情感分布图。...

【技术特征摘要】

【专利技术属性】
技术研发人员:任福继刘宁康鑫
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1