基于表情词典与情感常识的微博情感分析方法技术

技术编号：25522632 阅读：61 留言：0更新日期：2020-09-04 17:12

本发明专利技术提供一种基于表情词典与情感常识的微博情感分析方法。其包括对某一话题下的微博文本数据进行采集、预处理和分词操作；选取高频使用表情构建微博表情词典；抽取ConceptNet语义库的二元搭配，进行情感标注，并用同义词词典进行扩展形成情感常识库；根据表情符号和情感常识的权值计算来对微博进行情感分析等步骤。本发明专利技术利用表情词典与情感常识相结合的方式来判定微博的情感分类，在情感分析任务中融合了网络用语和表情符号等显性特征以及情感常识等隐性特征，在很大程度上可以深度挖掘微博文本所要表达的隐含情感，从而提高情感分析的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于表情词典与情感常识的微博情感分析方法
本专利技术属于自然语言处理中的文本情感分析
，特别是涉及基于表情词典与情感常识的微博情感分析方法。
技术介绍
微博已逐渐成为互联网时代重要的新兴社会网络平台，用户可以通过网页或者客户端，在微博上分享个人生活，发布个人观点，与朋友交流互动。截止到目前为止，微博用户数目已超过3亿人，在海量的微博数据中，包含许多用户带有主观情感倾向性的微博资源，研究如何高效挖掘隐藏于这些纷繁复杂的微博消息中的主题与情感有助于政府的舆情分析及网络监管，亦有助于企事业单位对所关心话题的舆论引导。然而微博独有的原创性、不可预见性等特点，现有的微博情感分析基本从表情符号和网络用词等显性特征来进行情感值的计算，微博文本中隐性情感往往对情感倾向的判断有着重要影响，而隐性情感的表达很大程度上并不含有情感词，需要读者拥有一定的知识背景通过推理来发现一些常识隐晦地传达出的隐藏情感。
技术实现思路
为了解决上述问题，本专利技术的目的在于提供基于表情词典与情感常识的微博情感分析方法。为了达到上述目的，本专利技术提供的基于表情词典与情感常识的微博情感分析方法包括按顺序进行的下列步骤：(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作，选取高频使用的表情符号构建微博表情词典；(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集，过滤含有显式情感的二元情感常识搭配；(3)二元实体候选集的情感极性计算；(4)利用哈工大的同...

【技术保护点】
1.基于表情词典与情感常识的微博情感分析方法，其特征在于：所述的基于表情词典与情感常识的微博情感分析方法，包括如下步骤：/n(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作，选取高频使用的表情符号构建微博表情词典；/n(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集，过滤含有显式情感的二元情感常识搭配；/n(3)二元实体候选集的情感极性计算；/n(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展，形成情感常识库；/n(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类。/n

【技术特征摘要】
1.基于表情词典与情感常识的微博情感分析方法，其特征在于：所述的基于表情词典与情感常识的微博情感分析方法，包括如下步骤：
(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作，选取高频使用的表情符号构建微博表情词典；
(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集，过滤含有显式情感的二元情感常识搭配；
(3)二元实体候选集的情感极性计算；
(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展，形成情感常识库；
(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类。

2.根据权利要求1所述的一种基于表情词典与情感常识的微博情感分析方法，其特征在于：在步骤(1)中，所述的采集指定话题下的微博文本并对文本数据进行预处理和分词操作，选取高频使用的表情符号构建微博表情词典的方法是：对某个话题下的微博文本进行采集，对采集的微博数据进行预处理操作，主要包括去除“#话题#”、“@用户名”、图片、视频以及网页链接等在内的噪声信息；之后利用中科院ICTCLAS分词工具进行分词，最后对高频使用的表情符号进行提取，构建表情词典，人工标注情感强度。

3.根...

【专利技术属性】
技术研发人员：徐新燕，张顺香，朱广丽，
申请(专利权)人：安徽理工大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人