一种基于微博群环境的微博多模态情感分析方法技术

技术编号:9924045 阅读:206 留言:0更新日期:2014-04-16 15:44
本发明专利技术公开了一种基于微博群环境的微博多模态情感分析方法,其特征是按如下步骤进行:1、获取微博数据;2、提取所述微博文本内容和所述评论内容的第一模态文本特征;3、提取所述评论内容的第二模态特征;4、将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量;5、对微博数据进行情感标记处理并获得多模态情感训练模型;6、预测待测试微博文本内容的情感状态。本发明专利技术能够进一步结合微博评论内容对微博文本内容进行特征提取,从而提高微博情感状态判断的准确度。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,其特征是按如下步骤进行:1、获取微博数据;2、提取所述微博文本内容和所述评论内容的第一模态文本特征;3、提取所述评论内容的第二模态特征;4、将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量;5、对微博数据进行情感标记处理并获得多模态情感训练模型;6、预测待测试微博文本内容的情感状态。本专利技术能够进一步结合微博评论内容对微博文本内容进行特征提取,从而提高微博情感状态判断的准确度。【专利说明】
本专利技术属于自然语言处理技术与情感计算领域,具体地说,是。
技术介绍
随着电子商务、微博、网络新闻媒体等信息交流和交易平台的大行其道,使得相关的评论和微博数据呈井喷式增长。面对如此海量的数据,如何从其中提取有利于各方的有用信息,已经成为了现如今各领域的研究热点。文本倾向性判断作为其中的研究方向,亦被作为数据价值性分析的重要依据之一。微博,微博客的简称,随着社交网络兴起,微博不再只是人们工作和生活中情感表达的方法,而更多是被用作为人与人之间的交流和沟通的方式。又因为微博承载的信息量庞大,表达的情感丰富,成为了相关研究重要的数据来源。因此近来有关微博数据的分析处理已经成为国内外研究热点。例如:对新闻轶事,产品评价,娱乐事件等内容的微博用户的关注度进行统计,关注信息进行分析等。现有的文本情感分类相关问题的解决大部分是仅仅基于文本特征提取的方法。其中对于多数文本特征提取只考虑了词表面含义,且并没有进一步在语义层面上对文本进行分析,从而导致了情感分析不够准确。由于微博属于句子级的文本,在情感分析时候特征的选择也受到了篇幅的限制,现有的微博情感分析方法只是对于微博文本内容进行特征的提取,而忽略了微博文本所处的情感环境,即没有从微博评论的角度出发,考虑对微博文本内容的情感表达,以及微博用户与微博好友之间的互动。
技术实现思路
本专利技术是为了克服现有技术存在的不足之处,提出,能够进一步结合微博评论内容对微博文本内容进行特征提取,从而提高微博情感状态判断的准确度。本专利技术为解决技术问题采取如下技术方案:本专利技术,所述微博群环境是由微博用户和微博用户好友构成,所述微博多模态情感分析方法的特点是按如下步骤进行:步骤1:获取微博数据:步骤1.1:获取所述微博用户的账号ID ;步骤1.2:根据所述微博用户的账号ID,调用微博的第三方API应用接口获得所述微博数据;所述微博数据包括微博文本内容、所述微博文本内容的评论内容、所述微博文本内容的评论数目和微博评论者;步骤2:提取所述微博文本内容和所述评论内容的第一模态文本特征:步骤2.1:对所述微博文本内容和所述评论内容分别进行分词和词性标注处理获得预处理后的文本内容和预处理后的评论内容;步骤2.2:利用情感词典获得所述预处理后的文本内容和预处理后的评论内容中的情感词以及所述情感词对应的情感值;步骤2.3:对所述预处理后的文本内容和预处理后的评论内容构建语法树并获得所述情感词的修饰成分;步骤2.4:根据所述情感词的修饰成分调整所述情感词的情感值获得所述情感词的最终情感值;步骤2.5:将所述情感词和所述情感词的最终情感值作为第一模态文本特征并用文本特征向量r/表示;步骤3:提取所述评论内容的第二模态特征:步骤3.1:根据所述微博文本内容的评论数目绘制微博群环境图;步骤3.2:利用所述微博群环境图获取所述微博用户与所述微博评论者对所述评论内容的第二模态特征并用微博群环境向量^表示;步骤4:将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量:步骤4.1:利用式⑴获得矩阵向量^【权利要求】1.,所述微博群环境是由微博用户和微博用户好友构成,其特征是,所述微博多模态情感分析方法按如下步骤进行: 步骤1:获取微博数据: 步骤1.1:获取所述微博用户的账号ID ; 步骤1.2:根据所述微博用户的账号ID,调用微博的第三方API应用接口获得所述微博数据;所述微博数据包括微博文本内容、所述微博文本内容的评论内容、所述微博文本内容的评论数目和微博评论者; 步骤2:提取所述微博文本内容和所述评论内容的第一模态文本特征: 步骤2.1:对所述微博文本内容和所述评论内容分别进行分词和词性标注处理获得预处理后的文本内容和预处理后的评论内容; 步骤2.2:利用情感词典获得所述预处理后的文本内容和预处理后的评论内容中的情感词以及所述情感词对应的情感值; 步骤2.3:对所述预处理后的文本内容和预处理后的评论内容构建语法树并获得所述情感词的修饰成分; 步骤2.4:根据所述情感词的修饰成分调整所述情感词的情感值获得所述情感词的最终情感值; 步骤2.5:将所述情感词和所述情感词的最终情感值作为第一模态文本特征并用文本特征向量i/表示;` 步骤3:提取所述评论内容的第二模态特征: 步骤3.1:根据所述微博文本内容的评论数目绘制微博群环境图; 步骤3.2:利用所述微博群环境图获取所述微博用户与所述微博评论者对所述评论内容的第二模态特征并用微博群环境向量G表示; 步骤4:将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量: 步骤4.1:利用式(I)获得矩阵向 【文档编号】G06F17/30GK103729456SQ201410006867【公开日】2014年4月16日 申请日期:2014年1月7日 优先权日:2014年1月7日 【专利技术者】孙晓, 李承程, 孙重远, 高飞, 陈炜亮, 任福继 申请人:合肥工业大学本文档来自技高网
...

【技术保护点】
一种基于微博群环境的微博多模态情感分析方法,所述微博群环境是由微博用户和微博用户好友构成,其特征是,所述微博多模态情感分析方法按如下步骤进行:步骤1:获取微博数据:步骤1.1:获取所述微博用户的账号ID;步骤1.2:根据所述微博用户的账号ID,调用微博的第三方API应用接口获得所述微博数据;所述微博数据包括微博文本内容、所述微博文本内容的评论内容、所述微博文本内容的评论数目和微博评论者;步骤2:提取所述微博文本内容和所述评论内容的第一模态文本特征:步骤2.1:对所述微博文本内容和所述评论内容分别进行分词和词性标注处理获得预处理后的文本内容和预处理后的评论内容;步骤2.2:利用情感词典获得所述预处理后的文本内容和预处理后的评论内容中的情感词以及所述情感词对应的情感值;步骤2.3:对所述预处理后的文本内容和预处理后的评论内容构建语法树并获得所述情感词的修饰成分;步骤2.4:根据所述情感词的修饰成分调整所述情感词的情感值获得所述情感词的最终情感值;步骤2.5:将所述情感词和所述情感词的最终情感值作为第一模态文本特征并用文本特征向量表示;步骤3:提取所述评论内容的第二模态特征:步骤3.1:根据所述微博文本内容的评论数目绘制微博群环境图;步骤3.2:利用所述微博群环境图获取所述微博用户与所述微博评论者对所述评论内容的第二模态特征并用微博群环境向量表示;步骤4:将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量:步骤4.1:利用式(1)获得矩阵向量tsv→=Σi=1rtfi→×svi→---(1)]]>式(1)中,r表示所述微博文本内容的评论数目,i∈[1,r],表示第i条评论内容的第一模态文本特征,表示第i条评论内容的第二模态特征;步骤4.2:利用式(2)获得单位矩阵向量e→1|tsv→|×tsv→---(2)]]>式(2)中,表示矩阵向量的模值;步骤4.3:将所述微博文本内容用文本特征向量表示,将所述微博文本内容与所述单位矩阵向量进行线性组合获得最终特征向量,利用所述最终特征向量表征所述微博文本内容;步骤5:对微博数据进行情感标记处理并获得多模态情感训练模型步骤5.1:标记所述微博文本内容和所述评论内容的情感状态,所述情感状态分为积极、中性和消极;步骤5.2:利用所述最终特征向量以及所述最终特征向量所对应的微博文本内容的情感状态以及作为输入值,利用模糊支持向量机进行训练获得多模态情感训练模型;步骤6:预测待测试微博文本内容的情感状态:步骤6.1:根据所述步骤1至步骤4获得所述待测试微博文本的最终特征向量;步骤6.2:将所述待测试微博文本的最终特征向量作为所述多模态情感训练模型的输入值预测所述待测试微博文本的情感状态。...

【技术特征摘要】

【专利技术属性】
技术研发人员:孙晓李承程孙重远高飞陈炜亮任福继
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1