一种基于公众汉语网络文本的现实情感分析方法技术

技术编号:8489780 阅读:310 留言:0更新日期:2013-03-28 10:22
本发明专利技术提出一种基于公众汉语网络文本的现实情感分析方法。方法主要包括几个步骤:第一,对网络文本进行预处理,检测特殊字符,获得基本语法结构。第二,概念排歧,根据错别字表,替换与情感有关的特定的有用词汇。第三,根据现实情感特征词库对情感词进行基于规则的情感值赋值。第四,根据制定的规则分析得到情感指向、情感状态、情感程度。该分析方法能准确的分析出公众汉语网络文本的现实情感信息。

【技术实现步骤摘要】

本专利技术涉及一种以公众汉语为主的网络文本的现实情感分析方法,涉及语言学、自然语言处理和数据挖掘领域。
技术介绍
Web2. O技术在过去几年的快速发展使得以公众汉语形式出现的网络文本越来越多,是我们最容易获取的最丰富的一种交互资源。这些网络文本的结构灵活松散,语言风格多样和质量良莠不齐,在此背景下兴起的基于网络文本的情感分析对信息检索、电子商务、舆情监控等领域有着重要的研究意义。国内针对汉语网络文本的情感分析主要集中在情感倾向性分析,一般分为褒义、贬义和中性三种,还包括倾向性的强烈程度。例如,“谴责”的强度远远超过“批评”和“指责”,而这种强度很难界定。基于网络文本的情感分析应当全面而丰富,不仅包括倾向性分析,还应分析当事人的主观情绪状态,以及情感程度。James Robert Martin从认识论的角度,将情感成分分为现实类情感和非现实类情感。非现实类情感关涉的是说话人的情感倾向,而现实情感则是某种状态。现实类情感分为12个典型状态,每个状态从情感指向又分为“对己”和“对人”两个次类,较多的层次表现力更强,更能体现语言的细微差别。本专利所指的情感分析属于现实类情感,指人的主观情本文档来自技高网...

【技术保护点】
本专利技术提出一种基于公众汉语网络文本的现实情感分析方法,包含以下步骤:(1)利用汉语分词软件对文本进行预处理,得到基本语法结构。(2)检测文本中的歧义词、标点符号、感叹词、程度副词、否定词和情感符号等。(3)根据歧义词表将关于情感的有用的特定词汇更正。(4)根据现实情感特征词库对情感词进行基于规则的赋值处理。(5)根据是否含有标点符号或者情感符等计算最终情感程度,得到最终情感分析结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:张钫炜陈贤陆月明
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1