一种融合显性和隐性特征的中文微博情感分析方法技术

技术编号:11296125 阅读:128 留言:0更新日期:2015-04-15 12:25
一种融合显性和隐性特征的中文微博情感分析方法,包括以下步骤:1)微博显性特征处理,1.1)表情符号处理;1.2)情感词处理;2)微博隐性特征处理:基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析。本发明专利技术提供一种灵活性较高、可靠性较好的融合显性和隐性特征的中文微博情感分析方法。

【技术实现步骤摘要】
一种融合显性和隐性特征的中文微博情感分析方法
本专利技术涉及互联网舆情内容分析
,尤其是一种文微博情感分析方法。
技术介绍
情感分析(Sentimentanalysis)是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,目的是从用户发布的带有主观感情色彩的文本信息中提取用户观点,并判断其情感极性。由于人类情感复杂,情感类别划分没有统一标准。常见方法例如把情感划分任务分为两种:主、客观信息的二元分类,对主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类。对于多元分类,也有研究提出了四类情感:angry愤怒,disgusting厌恶,happy高兴,sad悲伤,或者七类情感:anger愤怒、disgust厌恶、fear恐惧、happiness高兴、like喜好、sadness悲伤、surprise惊讶等。对于情感监测方法,国外方法有提出距离监督学习方法对Twitter中的消息进行情感分类,即给定一个检索词,消息自动被分为正面或负面信息,抽取Twitter中含有表情图标的消息作为训练集,最后利用朴素贝叶斯、最大熵以及支持向量机等算法进行分类;若内针对中文微博则有提出基于层次结构的多策略方法对新浪微博数据展开情感监测研究,并在特征提取时采用了主题相关特征,实验结果显示,使用主题相关的特征后所获得的最高准确率由66.467%提升到67.283%,但该方法分析过程较为繁琐。微博具有原创性、不可预见性等特点,单条微博字数在140以内,融合了网络用语和表情符号等显性特征以及微博语义情感等隐性特征,这给微博情感分析带了新的挑战。微博中广泛存在谐音词、简写词等,如“稀饭”代表“喜欢”、“杯具”代表“悲剧”等,且这些词汇随时间不断变化,并不断有新词出现,有必要建立特定的网络用语词典;微博表情符号通常可直接表达情感,但表情符号五花八门,需要建立特定的表情符号情感分类;此外,一条微博中可能包含多个不同情感,情感分析一般以博主的主要情感为准。现有技术中无法分析中文微博情感。
技术实现思路
为了克服现有技术中无法分析中文微博情感的不足,本专利技术提供一种灵活性较高、可靠性较好的融合显性和隐性特征的中文微博情感分析方法。本专利技术解决其技术问题所采用的技术方案是:一种融合显性和隐性特征的中文微博情感分析方法,所述中文微博情感分析方法包括以下步骤:1)微博显性特征处理,具体包括以下过程:1.1)表情符号处理:根据微博自带的表情构建情感符号库,依据7类情感分类方法,将情感分为高兴、喜好、愤怒、悲伤、恐惧、厌恶、惊讶七个类别,将出现频率排在前150的表情符号,作统一化处理,即先建立情感符号表,将150个表情符号放入情感符号表,通过查表方式判断该情感符号是否属于情感符号表,若是则提取情感符号,通过转换成情感类别后写入情感特征表;1.2)情感词处理:首先建立一个基于情感词典的情感词表,将微博中的情感词放入词表中,通过查表的方式判断通过文本分词后是否是情感词,若是则提取情感词,并写入情感特征表;再建立一个基于网络词汇的情感词表,将微博中的网络词汇放入词表中,通过查表方式判定部分微博内容的情感类别;2)微博隐性特征处理:基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析。再进一步,所述步骤2)包括以下过程:2.1)采用频繁集挖掘算法Apriori来计算挖掘频繁词集利用频繁项集划分构造初始情感簇,将包含频繁趋势词集微博划分为一个簇,得到基于频繁项集初始情感簇,同时,将描述初始情感簇的频繁项集作为对应情感簇临时标识,通过抽取各个初始情感簇的频繁项集来代表这个初始情感簇情感语义;2.2)微博语义隶属度初始簇重叠消减将每条微博归属到一个情感簇,计算簇间重叠部分对初始情感簇的情感语义隶属度,最后按最大语义隶属度原则进行簇分配;再删除那些初始簇分离后大小为0的空簇,重叠消减后的初始簇称为候选情感簇;2.3)基于语义相似度的凝聚式情感聚类:对候选情感簇进行凝聚式层次聚类,合并情感簇。再进一步,所述步骤2.1)中,定义1:对数据库E中某个项集X,若项集X在数据库E中出现的次数大于预设比例,则称X是数据库E的频繁项集,这个预设比例称作最小支持度;若将文本看成一条事务,文本词汇对应事务中的项目,则可将文本d表示为:d=<t1,t2,...,tn>,其中n表示文本d包含的特征词汇数量;定义2:对文本集D的某个词集W,若W在D中的支持度s(W)≥min_s,则称势集W是文本集D的频繁词集,min_s为全局最小支持度;扫描文本集D,利用词频趋势度统计候选项集出现的次数,收集满足最小支持度min_s设定的项集,记为频繁项集;利用产生的频繁k-项集构造强关联规则,利用频繁k-项集构造候选(k+1)-项集,反复迭代直至候选(k+1)-项集为空。更进一步,所述步骤2.2)中,定义3:若微博docj被分配到初始情感簇Ci中,则称微博docj支持簇Ci;定义4:记Di和Dj是支持簇Ci和Cj微博集合,并且Di∩Dj≠0,则称簇Ci和簇Cj存在簇间重叠;定义5:微博情感语义隶属度,本专利技术将微博docj对簇Ci的情感语义隶属度函数定义如下:其中,簇频繁1-项集{fi1,fi2,...,fim}表示初始簇Ci的情感特征项,{tj1,tj2,...,tjn}表示初始簇Ci中微博文本docj的特征项;sim(fik,tjl)为簇特征项fjk和文本特征项tjl在《知网》中定义的语义相似度,n为微博文本docj特征项数目,m为簇特征项数目。又进一步,所述步骤2.3)中,定义6:簇特征向量,针对候选情感簇CTi,挖掘出CTi的簇频繁1-项集,即构成该簇的簇特征向量,记为定义7:簇相似度矩阵,记两个不同候选情感簇CTi和CTj的簇特征向量分别为:和其中n和m分表表示特征词汇数量,则CTi和CTj的特征项构成的簇语义相似度矩阵按表1的方式定义;表1定义8:情感簇语义相似度,选取相似度矩阵中语义相似度最大k组特征项对进行候选情感间相似度计算,记为{sim(titj)1,sim(titj)2,...,sim(titj)k},候选情感簇的语义相似度定义为:基于语义相似度的凝聚式情感聚类过程如下:Step1:抽取各个候选情感簇的特征向量,计算候选情感簇的语义相似度;Step2:构建候选情感簇的语义相似度矩阵,由簇相似度的定义可知sim(CTi,CTj)=sim(CTj,CTi),即该相似度矩阵为一个对称矩阵;Step3:从相似度矩阵中选择最大的簇间相似度,记为max{sim(CTi,CTj)},若max{sim(CTi,CTj)}≤λ,执行Step6;否则,执行Step4;Step4:若max{sim(CTi,CTj)}>λ,CTi和CTj之间的相似性较大,故将CTi和CTj两个簇合并,形成一个新的簇CTi′,删除原CTi,并重新计算簇特征向量,更新语义相似度矩阵;Step5:若簇间语义相似度矩阵的行数或列数小于等于预设的最小簇数目μ,执行Step6;否则,聚类尚未结束,重新回到St本文档来自技高网
...
一种融合显性和隐性特征的中文微博情感分析方法

【技术保护点】
一种融合显性和隐性特征的中文微博情感分析方法,其特征在于:所述中文微博情感分析方法包括以下步骤:1)微博显性特征处理,具体包括以下过程:1.1)表情符号处理:根据微博自带的表情构建情感符号库,依据7类情感分类方法,将情感分为高兴、喜好、愤怒、悲伤、恐惧、厌恶、惊讶七个类别,将出现频率排在前150的表情符号,作统一化处理,即先建立情感符号表,将150个表情符号放入情感符号表,通过查表方式判断该情感符号是否属于情感符号表,若是则提取情感符号,通过转换成情感类别后写入情感特征表;1.2)情感词处理:建立一个情感词典的情感词表,将这些情感词放入词表中,通过查表的方式判断通过文本分词后是否是情感词,若是则提取情感词,并写入情感特征表;先建立一个网络词汇的情感词表,将这些网络词汇放入词表中,通过查表方式判定部分微博内容的情感类别;2)微博隐性特征处理:基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析。

【技术特征摘要】
1.一种融合显性和隐性特征的中文微博情感分析方法,其特征在于:所述中文微博情感分析方法包括以下步骤:1)微博显性特征处理,具体包括以下过程:1.1)表情符号处理:根据微博自带的表情构建情感符号库,依据7类情感分类方法,将情感分为高兴、喜好、愤怒、悲伤、恐惧、厌恶、惊讶七个类别,将出现频率排在前150的表情符号,作统一化处理,即先建立情感符号表,将150个表情符号放入情感符号表,通过查表方式判断该情感符号是否属于情感符号表,若是则提取情感符号,通过转换成情感类别后写入情感特征表;1.2)情感词处理:建立一个情感词典的情感词表,将这些情感词放入词表中,通过查表的方式判断通过文本分词后是否是情感词,若是则提取情感词,并写入情感特征表;先建立一个网络词汇的情感词表,将这些网络词汇放入词表中,通过查表方式判定部分微博内容的情感类别;2)微博隐性特征处理:基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析;所述步骤2)包括以下过程:2.1)采用频繁集挖掘算法Apriori来计算挖掘频繁词集利用频繁项集划分构造初始情感簇,将包含频繁趋势词集微博划分为一个簇,得到基于频繁项集初始情感簇,同时,将描述初始情感簇的频繁项集作为对应情感簇临时标识,通过抽取各个初始情感簇的频繁项集来代表这个初始情感簇情感语义;所述步骤2.1)中,定义1:对数据库E中某个项集X,若项集X在数据库E中出现的次数大于预设比例,则称X是数据库E的频繁项集,这个预设比例称作最小支持度;若将文本看成一条事务,文本词汇对应事务中的项目,则可将文本d表示为:d=<t1,t2,…,tn>,其中n表示文本d包含的特征词汇数量;定义2:对文本集D的某个词集W,若W在D中的支持度s(W)≥min_s,则称词集W是文本集D的频繁词集,min_s为全局最小支持度;扫描文本集D,利用词频趋势度统计候选项集出现的次数,收集满足最小支持度min_s设定的项集,记为频繁项集;利用产生的频繁k-项集构造强关联规则,利用频繁k-项集构造候选(k+1)-项集,反复迭代直至候选(k+1)-项集为空;2.2)微博语义隶属度初始簇重叠消减将每条微博归属到一个情感簇,计算簇间重叠部分对初始情感簇的情感语义隶属度,最后按最大语义隶属度原则进行簇分配;再删除那些初始簇分离后大小为0的空簇,重叠消减后的初始簇称为候选情感簇;2.3)基于语义相似度的凝聚式情感聚类:对候选情感簇进行凝聚式层次聚类,合并情...

【专利技术属性】
技术研发人员:陈铁明缪茹一
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1