基于表情词典与情感常识的微博情感分析方法技术

技术编号:25522632 阅读:61 留言:0更新日期:2020-09-04 17:12
本发明专利技术提供一种基于表情词典与情感常识的微博情感分析方法。其包括对某一话题下的微博文本数据进行采集、预处理和分词操作;选取高频使用表情构建微博表情词典;抽取ConceptNet语义库的二元搭配,进行情感标注,并用同义词词典进行扩展形成情感常识库;根据表情符号和情感常识的权值计算来对微博进行情感分析等步骤。本发明专利技术利用表情词典与情感常识相结合的方式来判定微博的情感分类,在情感分析任务中融合了网络用语和表情符号等显性特征以及情感常识等隐性特征,在很大程度上可以深度挖掘微博文本所要表达的隐含情感,从而提高情感分析的准确性。

【技术实现步骤摘要】
基于表情词典与情感常识的微博情感分析方法
本专利技术属于自然语言处理中的文本情感分析
,特别是涉及基于表情词典与情感常识的微博情感分析方法。
技术介绍
微博已逐渐成为互联网时代重要的新兴社会网络平台,用户可以通过网页或者客户端,在微博上分享个人生活,发布个人观点,与朋友交流互动。截止到目前为止,微博用户数目已超过3亿人,在海量的微博数据中,包含许多用户带有主观情感倾向性的微博资源,研究如何高效挖掘隐藏于这些纷繁复杂的微博消息中的主题与情感有助于政府的舆情分析及网络监管,亦有助于企事业单位对所关心话题的舆论引导。然而微博独有的原创性、不可预见性等特点,现有的微博情感分析基本从表情符号和网络用词等显性特征来进行情感值的计算,微博文本中隐性情感往往对情感倾向的判断有着重要影响,而隐性情感的表达很大程度上并不含有情感词,需要读者拥有一定的知识背景通过推理来发现一些常识隐晦地传达出的隐藏情感。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供基于表情词典与情感常识的微博情感分析方法。为了达到上述目的,本专利技术提供的基于表情词典与情感常识的微博情感分析方法包括按顺序进行的下列步骤:(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;(3)二元实体候选集的情感极性计算;(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展,形成情感常识库;(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类;在步骤(1)中,所述的采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典的方法是:对某个话题下的微博文本进行采集,对采集的微博数据进行预处理操作,主要包括去除“#话题#”、“@用户名”、图片、视频以及网页链接等在内的噪声信息;之后利用中科院ICTCLAS分词工具进行分词,最后对高频使用的表情符号进行提取,构建表情词典,人工标注情感强度。在步骤(2)中,所述的抽取具有明显情感倾向的二元实体作为常识候选集,主要是由于ConceptNet内包含的常识知识绝大多数并不具有情感倾向。在步骤(3)中,所述的二元实体候选集的情感极性计算,主要是利用义原相似度的均差值来计算。得到情感常识情感倾向的方法包括下列步骤:1)计算两个词之间的最大相似度:利用知网义原树中的距离计算义原相似度,从而得出词语的语义相似度,对于2个汉语词语w1和w2,如果w1有n个概念:x1,x2,…,xn,w2有m个概念:y1,y2,…,yn,规定w1和w2的相似度是各个概念的相似度的最大值,即:S(W1,W2)=max(S(xi,yj))i∈(1,n)j∈(1,m)(1)其中,λ是正可变参数;d(x1,y2)表示义原x1和义原y2在层次树中的距离;2)通过义原相似度均差得到词语情感倾向:对于任意一个词语,可以通过该词语和情感词典中的种子词之间的距离获得其情感倾向值。词语W与情感词典中的每个种子词进行比较得到其正面情感倾向值和负面情感倾向值通过比较它们之间的均差值,最终得到词语W的情感倾向值。词语W的情感倾向计算公式为:其中,Pi表示正向情感中的一个种子词;Nj表示负向情感中的某一个种子词;在步骤(4)中,所述的利用哈工大的同义词词林对情感常识的覆盖范围进行扩展方法是:在已标注极性的情感常识中,对两个实体分别进行同义词林替换,将替换的同义词元组扩充到现有的情感常识库中。例如:(“学校”,“放假”),根据“学校”的同义词“高校”向左扩展可以形成新的情感常识(“高校”,“放假”),而根据“放假”同义词“休假”向右扩展形成新的情感常识(“学校”,“休假”)。在步骤(5)中,所述的对于整条微博消息的情感值,需要综合考虑表情符号和微博文本对倾向值结果的影响。微博文本中查找是否有二元情感常识搭配,如果有匹配,则用现有的已标注情感权值的二元情感常识替代微博文本现有的词语搭配来计算微博文本的情感倾向,对上述两部分进行情感倾向值加权处理后计算得到整条微博情感倾向。得到整条微博文本情感倾向的方法包括下列步骤:1)表情的情感倾向可以通过表情符号的权值大小计算得到,即:其中,Ei为某一微博消息中第i个表情的情感强度。2)整条微博消息的情感值倾向公式,即:当所得的Q值大于0是则该条微博情感倾向为正面,小于0时为负面情感,等于0时为中性。本专利技术提供的基于表情词典与情感常识的微博情感分析方法有以下优点:(1)本专利技术利用显性特征和隐性特征相结合的方法来判定微博消息的情感倾向,运用常识知识,在很大程度上可以深度挖掘微博文本所要表达的隐含情感,从而提高情感分析的准确性。(2)本专利技术不同于机器学习方法,不需要使用大规模数据进行训练,比较适用于实时数据处理。附图说明图1是本专利技术的流程框架图。具体实施方式下面结合附图对本专利技术提供的基于表情词典与情感常识的微博情感分析方法进行详细说明。如图1所示,本专利技术提供的基于表情词典与情感常识的微博情感分析方法包括按顺序进行的下列步骤:(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;采集指定话题下的微博文本作为本专利技术的分析对象,对文本数据进行预处理操作,去除对后续情感分析影响甚微的噪声信息,主要包括“#话题#”、“@用户名”、图片、视频以及网页链接等。然后利用中科院ICTCLAS分词工具进行分词。之后对高频使用的表情符号进行提取,构建表情情感词典,人工标注情感强度,如表1所示。表1表情符号词典示例(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;(3)二元实体候选集的情感极性计算,主要是利用义原相似度的均差值来计算。得到情感常识情感倾向的方法包括下列步骤:1)计算两个词之间的最大相似度:利用知网义原树中的距离计算义原相似度,从而得出词语的语义相似度,对于2个汉语词语w1和w2,如果w1有n个概念:x1,x2,…,xn,w2有m个概念:y1,y2,…,yn,规定w1和w2的相似度是各个概念的相似度的最大值,即:S(W1,W2)=max(S(xi,yj))i∈(1,n)j∈(1,m)(1)其中,λ是正可变参数;d(x1,y2)表示义原x1和义原y2在层次树中的距离。2)通过义原相似度均差得到词语情感倾向:对于任意一个词语,可以通过该词语和情感词典中的种子词之间的距离获得其情感倾向值。词语W与情感词典中的每个种子词进行比较得到其正面情感倾向值和负面情感倾向值通过比较本文档来自技高网...

【技术保护点】
1.基于表情词典与情感常识的微博情感分析方法,其特征在于:所述的基于表情词典与情感常识的微博情感分析方法,包括如下步骤:/n(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;/n(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;/n(3)二元实体候选集的情感极性计算;/n(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展,形成情感常识库;/n(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类。/n

【技术特征摘要】
1.基于表情词典与情感常识的微博情感分析方法,其特征在于:所述的基于表情词典与情感常识的微博情感分析方法,包括如下步骤:
(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;
(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;
(3)二元实体候选集的情感极性计算;
(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展,形成情感常识库;
(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类。


2.根据权利要求1所述的一种基于表情词典与情感常识的微博情感分析方法,其特征在于:在步骤(1)中,所述的采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典的方法是:对某个话题下的微博文本进行采集,对采集的微博数据进行预处理操作,主要包括去除“#话题#”、“@用户名”、图片、视频以及网页链接等在内的噪声信息;之后利用中科院ICTCLAS分词工具进行分词,最后对高频使用的表情符号进行提取,构建表情词典,人工标注情感强度。


3.根...

【专利技术属性】
技术研发人员:徐新燕张顺香朱广丽
申请(专利权)人:安徽理工大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1