一种微博用户个性化情感倾向分析方法及系统技术方案

技术编号:9862132 阅读:491 留言:0更新日期:2014-04-02 20:09
本发明专利技术公开了一种微博用户个性化情感倾向分析方法,包括以下步骤:数据采集、分词、加载词库和表情符号库、建立用户感兴趣话题库、划分短句、提取情感元素、建立用户个性化惯用语列表、惯用语情感值计算、计算用户话题情感倾向、计算用户总体情感倾向。本发明专利技术还公开了一种微博用户个性化情感倾向分析系统。本发明专利技术实现了对微博单个用户的情感分析,将用户的情感分析与对具体话题相结合,避免了笼统刻板的分析模式,使对用户的情感分析更细致、更具有方向性,提高情感倾向分析的准确度。

【技术实现步骤摘要】
一种微博用户个性化情感倾向分析方法及系统
本专利技术涉及微博数据处理领域,特别涉及一种微博用户个性化情感倾向分析方法及系统。
技术介绍
微博是一个自由随意的平台,其信息短小,发布迅速,用户经常通过微博发表自己对各种事件和评论对象的主观感受,与他人分享自己的价值观、意见、情感等。微博信息中包含了很多的情感词语,蕴含了丰富的情感信息。自由放松的环境,使用户微博数据中情感表达的信息可以更深入、准确地反映用户的情感倾向。目前中文微博的情感分析研究工作,主要是针对某个特定事件和主题进行,分析所有相关的微博信息文本,提取情感元素,进行统计学的分析,对微博的情感信息进行分类、标注和预测,取得了一定成果。但是当前的研究主要关注微博信息的情感分析或群体用户的情感状况,对于单个微博用户的情感倾向分析和研究尚未深入开展,并没有单独针对用户的情感倾向分析。而且,对情感倾向的分析,也没有细化到社会生活上的各具体方面,这就导致情感分析的针对性不强,分析和预测的准确性、全面性尚待进一步提高。微博的情感表达方式是个性化的,必须引入用户的个性化特征才能得到更准确的分析结果。微博的热点话题转换非常快,而活跃的用户相对稳定。影响事件发展的趋势是所有参与的微博用户,用户的情感模型是相对稳定的。通过对用户个性化情感的分析,可以更准确更细致地标记微博信息的情感,预测事件的发展和变化。建立的用户情感分析信息还可以长期使用,随着数据的积累会越来越准确。通过对微博用户的个性化情感分析技术,能分析判断出他们对热门话题、特定言论、特定对象或者产品的喜爱或憎恨程度,挖掘其中的商业和社会价值,具有广阔的应用前景,如1)舆情监控,热点话题的趋势分析和预测,社会群体的情感分析等;2)股市、流行性疾病、选举等趋势分析和预测;3)基于大数据的用户行为分析,例如消费倾向、用户喜好等。微博用户个性化情感倾向分析方法的研究具有重要的学术价值和社会意义。
技术实现思路
为了克服现有技术的上述缺点与不足,本专利技术的目的在于提供一种微博用户个性化情感倾向分析方法,实现了对微博单个用户的情感分析,使用户的情感分析更细致、更具有方向性。本专利技术的另一目的在于提供一种微博用户个性化情感倾向分析系统。本专利技术的目的通过以下技术方案实现:一种微博用户个性化情感倾向分析方法,包括以下步骤:(1)采集每个用户的微博主页的所有数据,存入数据库;(2)对步骤(1)采集到的微博数据中的文本数据进行分词,得到分词集合和词性标注;(3)加载所需词库、表情符号库;所述词库包括hownet情感词词库,程度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词库和分类词库;(4)采用基于词频的层间向上聚合算法建立用户感兴趣话题库:(4-1)建立话题树:过滤掉用户文本数据中没有话题意义的词语,得到有明显话题信息的词语,利用分类词库,统计词频,建立话题树;所述话题树为层次化结构,第一层为一级话题分类,第二层为二级子话题分类,第三层为三级子话题分类;所述没有话题意义的词语包括程度词、否定词、人称代词、虚词、衔接词、形容词;(4-2)根据话题树,通过基于词频的层间向上聚合算法,逐层提取高频话题;(4-3)建立一个主分支,用于放置无法归入父层话题的话题词和网络上流行的特有话题词或词组,得到常用话题库;将微博数据中的词语与常用话题库中的词语进行匹配对应,将在用户的微博数据中出现次数超过阈值的话题词语提取出来,也作为高频话题;(4-4)将步骤(4-2)和(4-3)得到的高频话题作为用户感兴趣话题词,建立用户感兴趣话题库;(5)将步骤(1)采集到的微博数据划分短句,确保每一个短句至多含有一个感兴趣话题词;(6)提取每个短句中的情感元素,计算每个短句的初始情感值:(6-1)将短句的词语集合与各词库和表情符号库进行匹配映射,标记出各类情感元素;所述情感元素包括情感词、程度词、否定词、标点符号、表情符号,其中程度词和标点符号都用于调整情感词的程度,否定词用于调整情感词的极性;(6-2)计算短句中文本的情感值:设置情感元素的权值:正面情感词权值为“+1”,负面情感词权值为“-1”;否定词权值为“-1”;程度词和标点符号按照其程度的深浅,设置权值,权值范围为0到3之间;程度词和标点符号所影响的情感词遵循就近原则,即每个程度词或标点符号影响距离它最近的情感词的情感程度;短句中文本的情感值Iwords的计算方法为:式中,qi表示第i个情感词,cij表示修饰qi的第j个程度词权值,fij表示修饰qi的第j个否定词权值;若qi没有附带程度词,则cij取默认值1;若qi没有附带否定词,则fij取默认值1;n取修饰qi的程度词个数和修饰qi的否定词个数中的最大值,m表示情感词的个数,b表示标点符号对应的权值,i,j都为正整数;(6-3)计算短句中表情符号的情感值:对于微博运营方提供的表情,将其对于情感倾向的贡献分为正面,负面,中性三种情况:正面表情符号的权值设为“+1”,负面表情符号的权值设为“-1”,中性表情符号的权值设为“0”;短句中表情符号情感值Imarks的计算方法为:式中,mi表示第i个表正面、负面或中性情感的表情,i为正整数,l为表情符号个数;(6-4)计算短句的初始情感值I0:I0=Iwords+Imarks;(7)对步骤(2)处理后的文本数据,利用词语滑动窗口法提取高频的词语组合,得到用户个性化惯用语列表;(8)对包含各条惯用语的所有短句的初始情感值进行统计分析,得出惯用语的情感值;对于每条惯用语,找出所有含有该惯用语的短句,将其初始情感值求和平均,计算方法如下:式中,I0i为第i句包含该惯用语的短句的初始情感值,p为含有该惯用语的短句数,Ig为该惯用语的情感初值;将Ig的值映射在[-3,3]中,得到惯用语的情感值I’g,记录在该用户的个性化惯用语情感标记表中;(9)计算每个短句的个性化情感值,计算方法为:式中,I0为短句的初始情感值,qgi表示第i个词语,cgij表示修饰qgi的第j个程度词权值,fgij表示修饰qgi的第j个否定词权值;若qgi没有附带程度词,则cgij取默认值1;若qgi没有附带否定词,则fgij取默认值1;n'取修饰qgi的程度词的个数和修饰qgi的否定词的个数中的最大值;m'表示词语的个数,i,j都为正整数;I'gk表示第k个惯用语的情感值,r表示该短句中惯用语的个数;(10)计算用户感兴趣话题的情感倾向:对于用户感兴趣话题库中的任一用户感兴趣话题词,按下式计算其情感值:Ij为包含该用户感兴趣话题词的第j个短句的个性化情感值,w本文档来自技高网
...
一种微博用户个性化情感倾向分析方法及系统

【技术保护点】
一种微博用户个性化情感倾向分析方法,其特征在于,包括以下步骤:(1)采集每个用户的微博主页的所有数据,存入数据库;(2)对步骤(1)采集到的微博数据中的文本数据进行分词,得到分词集合和词性标注;(3)加载所需词库、表情符号库;所述词库包括hownet情感词词库,程度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词库和分类词库;(4)采用基于词频的层间向上聚合算法建立用户感兴趣话题库:(4‑1)建立话题树:过滤掉用户文本数据中没有话题意义的词语,得到有明显话题信息的词语,利用分类词库,统计词频,建立话题树;所述话题树为层次化结构,第一层为一级话题分类,第二层为二级子话题分类,第三层为三级子话题分类;所述没有话题意义的词语包括程度词、否定词、人称代词、虚词、衔接词、形容词;(4‑2)根据话题树,通过基于词频的层间向上聚合算法,逐层提取高频话题;(4‑3)建立一个主分支,用于放置无法归入父层话题的话题词和网络上流行的特有话题词或词组,得到常用话题库;将微博数据中的词语与常用话题库中的词语进行匹配对应,将在用户的微博数据中出现次数超过阈值的话题词语提取出来,也作为高频话题;(4‑4)将步骤(4‑2)和(4‑3)得到的高频话题作为用户感兴趣话题词,建立用户感兴趣话题库;(5)将步骤(1)采集到的微博数据划分短句,确保每一个短句至多含有一个感兴趣话题词;(6)提取每个短句中的情感元素,计算每个短句的初始情感值:(6‑1)将短句的词语集合与各词库和表情符号库进行匹配映射,标记出各类情感元素;所述情感元素包括情感词、程度词、否定词、标点符号、表情符号,其中程度词和标点符号都用于调整情感词的程度,否定词用于调整情感词的极性;(6‑2)计算短句中文本的情感值:设置情感元素的权值:正面情感词权值为“+1”,负面情感词权值为“‑1”;否定词权值为“‑1”;程度词和标点符号按照其程度的深浅,设置权值,权值范 围为0到3之间;程度词和标点符号所影响的情感词遵循就近原则,即每个程度词或标点符号影响距离它最近的情感词的情感程度;短句中文本的情感值Iwords的计算方法为: I words = b · Σ i = 1 m ( Σ j = 1 n c ij · f ij ) · q i 式中,qi表示第i个情感词,cij表示修饰qi的第j个程度词权值,fij表示修饰qi的第j个否定词权值;若qi没有附带程度词,则cij取默认值1;若qi没有附带否定词,则fij取默认值1;n取修饰qi的程度词个数和修饰qi的否定词个数中的最大值,m表示情感词的个数,b表示标点符号对应的权值,i,j都为正整数;(6‑3)计算短句中表情符号的情感值:对于微博运营方提供的表情,将其对于情感倾向的贡献分为正面,负面,中性三种情况:正面表情符号的权值设为“+1”,负面表情符号的权值设为“‑1”,中性表情符号的权值设为“0”;短句中表情符号情感值Imarks的计算方法为: I marks = Σ i = 1 l m i 式中,mi表示第i个表正面、负面或中性情感的表情,i为正整数,l为表情符号个数;(6‑4)计算短句的初始情感值I0:I0=Iwords+Imarks;(7)对步骤(2)处理后的文本数据,利用词语滑动窗口法提取高频的词语组合,得到用户个性化惯用语列表;(8)对包含各条惯用语的所有短句的初始情感值进行统计分析,得出惯用语的情感值;对于每条惯用语,找出所有含有该惯用语的短句,将其初始情感值求和平均,计算方法如下: I g = 1 p Σ i = 1 p I 0 ...

【技术特征摘要】
1.一种微博用户个性化情感倾向分析方法,其特征在于,包括以下步骤:(1)采集每个用户的微博主页的所有数据,存入数据库;(2)对步骤(1)采集到的微博数据中的文本数据进行分词,得到分词集合和词性标注;(3)加载所需词库、表情符号库;所述词库包括hownet情感词词库,程度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词库和分类词库;(4)采用基于词频的层间向上聚合算法建立用户感兴趣话题库:(4-1)建立话题树:过滤掉用户文本数据中没有话题意义的词语,得到有明显话题信息的词语,利用分类词库,统计词频,建立话题树;所述话题树为层次化结构,第一层为一级话题分类,第二层为二级子话题分类,第三层为三级子话题分类;所述没有话题意义的词语包括程度词、否定词、人称代词、虚词、衔接词、形容词;(4-2)根据话题树,通过基于词频的层间向上聚合算法,逐层提取高频话题;(4-3)建立一个主分支,用于放置无法归入父层话题的话题词和网络上流行的特有话题词或词组,得到常用话题库;将微博数据中的词语与常用话题库中的词语进行匹配对应,将在用户的微博数据中出现次数超过阈值的话题词语提取出来,也作为高频话题;(4-4)将步骤(4-2)和(4-3)得到的高频话题作为用户感兴趣话题词,建立用户感兴趣话题库;(5)将步骤(1)采集到的微博数据划分短句,确保每一个短句至多含有一个感兴趣话题词;(6)提取每个短句中的情感元素,计算每个短句的初始情感值:(6-1)将短句的词语集合与各词库和表情符号库进行匹配映射,标记出各类情感元素;所述情感元素包括情感词、程度词、否定词、标点符号、表情符号,其中程度词和标点符号都用于调整情感词的程度,否定词用于调整情感词的极性;(6-2)计算短句中文本的情感值:设置情感元素的权值:正面情感词权值为“+1”,负面情感词权值为“-1”;否定词权值为“-1”;程度词和标点符号按照其程度的深浅,设置权值,权值范围为0到3之间;程度词和标点符号所影响的情感词遵循就近原则,即每个程度词或标点符号影响距离它最近的情感词的情感程度;短句中文本的情感值Iwords的计算方法为:式中,qi表示第i个情感词,cij表示修饰qi的第j个程度词权值,fij表示修饰qi的第j个否定词权值;若qi没有附带程度词,则cij取默认值1;若qi没有附带否定词,则fij取默认值1;n取修饰qi的程度词个数和修饰qi的否定词个数中的最大值,m表示情感词的个数,b表示标点符号对应的权值,i,j都为正整数;(6-3)计算短句中表情符号的情感值:对于微博运营方提供的表情,将其对于情感倾向的贡献分为正面,负面,中性三种情况:正面表情符号的权值设为“+1”,负面表情符号的权值设为“-1”,中性表情符号的权值设为“0”;短句中表情符号情感值Imarks的计算方法为:式中,mi表示第i个表正面、负面或中性情感的表情,i为正整数,l为表情符号个数;(6-4)计算短句的初始情感值I0:I0=Iwords+Imarks;(7)对步骤(2)处理后的文本数据,利用词语滑动窗口法提取高频的词语组合,得到用户个性化惯用语列表;(8)对包含各条惯用语的所有短句的初始情感值进行统计分析,得出惯用语的情感值;对于每条惯用语,找出所有含有该惯用语的短句,将其初始情感值求和平均,计算方法如下:式中,I0i为第i句包含该惯用语的短句的初始情感值,p为含有该惯用语的短句数,Ig为该惯用语的情感初值;将Ig的值映射在[-3,3]中,得到惯用语的情感值I’g,记录在该用户的个性化惯用语情感标记表中;(9)计算每个短句的个性化情感值,计算方法为:式中,I0为短句的初始情感值,qgi表示第i个词语,cgij表示修饰qgi的第j个程度词权值,fgij表示修饰qgi的第j个否定词权值;若qgi没有附带程度词,则cgij取默认值1;若qgi没有附带否定词,则fgij取默认值1;n'取修饰qgi的程度词的个数和修饰qgi的否定词的个数中的最大值,m'表示词语的个数,i,j都为正整数;I'gk表示第k个惯用语的情感值,r表示该短句中惯用语的个数;(10)计算用户感兴趣话题的情感倾向:对于用户感兴趣话题库中的任一用户感兴趣话题词,按下式计算其情感值:Ij为包含该用户感兴趣话题词的第j个短句的个性化情感值,w为包含该用户感兴趣话题词的短句总数,为该用户感兴趣话题词的情感值;将的值映射在[-3,3]中,得到最终的用户的话题情感倾向值,利用这些值,建立用户个性化微博话题情感值列表。2.根据权利要求1所述的微博用户个性化情感倾向分析方法,其特...

【专利技术属性】
技术研发人员:王伟凝刘剑聪韦岗王励
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1