【技术实现步骤摘要】
一种融合显性和隐性特征的中文微博情感分析方法
本专利技术涉及互联网舆情内容分析
,尤其是一种文微博情感分析方法。
技术介绍
情感分析(Sentimentanalysis)是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,目的是从用户发布的带有主观感情色彩的文本信息中提取用户观点,并判断其情感极性。由于人类情感复杂,情感类别划分没有统一标准。常见方法例如把情感划分任务分为两种:主、客观信息的二元分类,对主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类。对于多元分类,也有研究提出了四类情感:angry愤怒,disgusting厌恶,happy高兴,sad悲伤,或者七类情感:anger愤怒、disgust厌恶、fear恐惧、happiness高兴、like喜好、sadness悲伤、surprise惊讶等。对于情感监测方法,国外方法有提出距离监督学习方法对Twitter中的消息进行情感分类,即给定一个检索词,消息自动被分为正面或负面信息,抽取Twitter中含有表情图标的消息作为训练集,最后利用朴素贝叶斯、最大熵以及支持向量机等算法进行分类;若内针对中文微博则有提出基于层次结构的多策略方法对新浪微博数据展开情感监测研究,并在特征提取时采用了主题相关特征,实验结果显示,使用主题相关的特征后所获得的最高准确率由66.467%提升到67.283%,但该方法分析过程较为繁琐。微博具有原创性、不可预见性等特点,单条微博字数在140以内,融合了网络用语和表情符号等显性特征以及微博语义情感等隐性特征,这给微博情感分析带了新的挑战。微博中广泛存在 ...
【技术保护点】
一种融合显性和隐性特征的中文微博情感分析方法,其特征在于:所述中文微博情感分析方法包括以下步骤:1)微博显性特征处理,具体包括以下过程:1.1)表情符号处理:根据微博自带的表情构建情感符号库,依据7类情感分类方法,将情感分为高兴、喜好、愤怒、悲伤、恐惧、厌恶、惊讶七个类别,将出现频率排在前150的表情符号,作统一化处理,即先建立情感符号表,将150个表情符号放入情感符号表,通过查表方式判断该情感符号是否属于情感符号表,若是则提取情感符号,通过转换成情感类别后写入情感特征表;1.2)情感词处理:建立一个情感词典的情感词表,将这些情感词放入词表中,通过查表的方式判断通过文本分词后是否是情感词,若是则提取情感词,并写入情感特征表;先建立一个网络词汇的情感词表,将这些网络词汇放入词表中,通过查表方式判定部分微博内容的情感类别;2)微博隐性特征处理:基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析。
【技术特征摘要】
1.一种融合显性和隐性特征的中文微博情感分析方法,其特征在于:所述中文微博情感分析方法包括以下步骤:1)微博显性特征处理,具体包括以下过程:1.1)表情符号处理:根据微博自带的表情构建情感符号库,依据7类情感分类方法,将情感分为高兴、喜好、愤怒、悲伤、恐惧、厌恶、惊讶七个类别,将出现频率排在前150的表情符号,作统一化处理,即先建立情感符号表,将150个表情符号放入情感符号表,通过查表方式判断该情感符号是否属于情感符号表,若是则提取情感符号,通过转换成情感类别后写入情感特征表;1.2)情感词处理:建立一个情感词典的情感词表,将这些情感词放入词表中,通过查表的方式判断通过文本分词后是否是情感词,若是则提取情感词,并写入情感特征表;先建立一个网络词汇的情感词表,将这些网络词汇放入词表中,通过查表方式判定部分微博内容的情感类别;2)微博隐性特征处理:基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析;所述步骤2)包括以下过程:2.1)采用频繁集挖掘算法Apriori来计算挖掘频繁词集利用频繁项集划分构造初始情感簇,将包含频繁趋势词集微博划分为一个簇,得到基于频繁项集初始情感簇,同时,将描述初始情感簇的频繁项集作为对应情感簇临时标识,通过抽取各个初始情感簇的频繁项集来代表这个初始情感簇情感语义;所述步骤2.1)中,定义1:对数据库E中某个项集X,若项集X在数据库E中出现的次数大于预设比例,则称X是数据库E的频繁项集,这个预设比例称作最小支持度;若将文本看成一条事务,文本词汇对应事务中的项目,则可将文本d表示为:d=<t1,t2,…,tn>,其中n表示文本d包含的特征词汇数量;定义2:对文本集D的某个词集W,若W在D中的支持度s(W)≥min_s,则称词集W是文本集D的频繁词集,min_s为全局最小支持度;扫描文本集D,利用词频趋势度统计候选项集出现的次数,收集满足最小支持度min_s设定的项集,记为频繁项集;利用产生的频繁k-项集构造强关联规则,利用频繁k-项集构造候选(k+1)-项集,反复迭代直至候选(k+1)-项集为空;2.2)微博语义隶属度初始簇重叠消减将每条微博归属到一个情感簇,计算簇间重叠部分对初始情感簇的情感语义隶属度,最后按最大语义隶属度原则进行簇分配;再删除那些初始簇分离后大小为0的空簇,重叠消减后的初始簇称为候选情感簇;2.3)基于语义相似度的凝聚式情感聚类:对候选情感簇进行凝聚式层次聚类,合并情...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。