一种基于情感轮模型的情感词典快速构建方法技术

技术编号:19009123 阅读:65 留言:0更新日期:2018-09-22 09:00
本发明专利技术涉及一种基于情感轮模型的情感词典快速构建方法,属于自然语言处理应用技术领域。首先对大规模语料进行规范化处理,使用CBOW模型训练出词向量,获得词语语义空间表示;再使用词向量和少量人工筛选进行情感种子词构建,得到情感种子词集;最后基于情感轮模型完成语义空间到情感空间的映射,构建词汇级情感词典资源。本发明专利技术通过设计更加准确的四维情感模型,克服了传统二维情感模型将句子倾向性绑定到词汇倾向性上导致评价不准确的缺点;本发明专利技术构建词汇级情感词典资源的过程仅需极少的人工干预,因此可以在不同语种上快速构建情感词典;本发明专利技术构建的词汇级情感词典资源在情感分析的多个任务中都取得很好的效果。

A fast construction method of emotion dictionary based on emotion wheel model

The invention relates to a fast construction method of emotion dictionary based on emotion wheel model, belonging to the technical field of natural language processing application. Firstly, large-scale corpus is normalized, and word vectors are trained by CBOW model to obtain semantic space representation of words; then emotion seed words are constructed by using word vectors and a small number of artificial screening to get emotional seed words; finally, the mapping from semantic space to emotional space is completed based on emotional wheel model, and vocabulary is constructed. Level emotional dictionary resources. By designing a more accurate four-dimensional emotion model, the invention overcomes the disadvantage that the traditional two-dimensional emotion model binds sentence orientation to lexical orientation, which leads to inaccurate evaluation; the process of constructing lexical-level emotion dictionary resources requires only minimal manual intervention, so emotion can be quickly constructed in different languages. The lexical level emotion dictionary resources constructed by the invention have achieved good results in many tasks of emotion analysis.

【技术实现步骤摘要】
一种基于情感轮模型的情感词典快速构建方法
本专利技术涉及一种情感词典的构建方法,尤其涉及一种基于情感轮模型的情感词典快速构建方法,属于自然语言处理应用

技术介绍
近年来互联网的迅猛发展有目共睹,互联网对社会生活的影响比人们所预想的更加深远和广泛。WEB1.0时代,互联网是企业的商机突破点与展示舞台;WEB2.0时代,互联网已经渗入到了万千百姓的日常生活中,成为了每个行业都必须关注并重视的互动平台。我们每个人都可以作为信息的发布者畅所欲言,而收集海量的互联网信息,则可以真正做到“集百家之言”,相对于传统的问卷调查、小组讨论、采样采访等信息搜集方法,WEB信息挖掘研究所面向的群体更广泛,结果更具代表性。如何有效利用海量的互联网内容还原出广大网民的观点、态度与关注热点至关重要,这些分析结果对于企业决策、舆情监控、信息预测等都有巨大的帮助。情感分析作为WEB信息挖掘的一个重要分支,也一直是研究的热点所在。情感分析是通过信息检索与抓取、中文分词、句法及语义结构分析、特征提取、机器学习、深度学习等自然语言处理技术,自动识别目标文本情感倾向的分类任务。根据分类数目的不同,主要分为正负二分类任务、基于用户打分的多分类任务以及基于情感类别的多分类任务。根据分析对象粒度大小的不同,主要分为词汇级情感分析、短语级情感分析、句子级情感分析、篇章级情感分析以及多篇章级情感分析。根据文本对象来源的不同,主要分为新闻类情感分析、商品评论类情感分析以及社交媒体类情感分析。情感分析的结果代表了海量文本的情感倾向性,可以帮助企业进行市场分析调研、帮助顾客做出购买决策及帮助领导者了解政策措施的反馈意见。情感词典资源在情感分析中起着重要的作用,无论是传统统计方法,还是新兴的深度学习方法,都离不开词汇级情感资源的支持。然而,现有的大多数情感词典都选择以正负词集的形式表示词汇级情感知识。我们调研了现有的中文情感词典资源,并给出以下统计结果:HowNet情感词集:包含4570个正向词汇,4374个负向词汇,其中正向词集与负向词集有105个重合词汇,包括刺眼、粗放、风流、简单、老实、泼辣、轻易、随便、投机、严肃、要紧等词汇。NTU评价词词典:包含2810个正向词汇,8276个负向词汇,其中正向词集与负向词集有59个重合词汇,包括入迷、不可思议、心甘情愿、冷静、狂热、敏感、稀罕等词汇。大连理工情感词汇本体库:不同于前面两个词典,大连理工情感词典为27467个词汇定义了情感极性,其中极性为3代表兼有褒贬两性,这样的词汇有78个,包括花哨、老诚、洋洋得意、呼风唤雨、独善其身等。可以看出,现有的大部分词典资源都是以一维整数值+1或-1表示词汇的情感,且词集中都存在“正负性兼有”的词汇。相对于句子级、篇章级情感分析,情感词典是底层的支撑资源,将这些正负倾向性兼有的词汇级结果投入后续的情感分析流程可能会造成上层分析过程的误差,如:情感分类模型常采取“正向情感词个数”及“负向情感词个数”特征,而情感资源中“老实”即在正向词表中又在负向词表中,因此这两维特征需要同时+1,于是“老实”一词的出现并没有通过这两维特征给上层分析带来非常有用的信息。如上,这样中性的词汇还有很多,针对不同的语境与上下文,中性词汇有不同的情感倾向,导致了这些词汇“即正也负”,然而这些词汇却实实在在地表达了一定的情感内容,尽管“老实”与“不可思议”都是中性词,但是显然人类可以分辨出他们携带了不同的情感信息,将他们都归类为中性并没有体现出他们的不同,因此我们需要一种更加精确的词汇级情感表示方法,既要尽可能全面地提供词汇的情感信息,也要确保所提供的信息是稳定的、仅依赖于词汇本身、不随上下文变化的。
技术实现思路
本专利技术的目的是克服传统二维情感模型将句子倾向性绑定到词汇倾向性上导致评价不准确的缺点,提出了一种基于情感轮模型的情感词典快速构建方法,用于构造词汇级情感词典资源以及完成情感分析的多个任务。其中,词汇级情感词典资源,记为SentiVec;本专利技术的核心思想是:首先对大规模语料进行规范化处理,使用CBOW模型训练出词向量,获得词语语义空间表示;再使用词向量和少量人工筛选进行情感种子词构建,得到情感种子词集;最后基于情感轮模型完成语义空间到情感空间的映射,构建词汇级情感词典资源。为实现上述目的,本专利技术所采用的技术方案如下:一种基于情感轮模型的情感词典快速构建方法,包括如下步骤:步骤一、语料预处理:对待处理语料按照规则,进行分词处理后得到语料集T;其中,待处理语料可以是百度百科、维基百科、Twitter、Facebook、人人网以及Google为主的网络平台下载的语料;待处理语料按照规则,记为Rules,包括如下具体内容:规则1:去除当前待处理语料中主语言外的其他语言组成的句子,构建主语言的SentiVec资源;规则2:去除句子中的html标签等无效数据;规则3:去除语言的标点符号;步骤二、经词向量训练获得词语语义空间表示,具体为:使用CBOW模型进行词向量的训练,得到词语语义空间表示;其中,CBOW模型为Mikolov提出的ContinuousBagofWords模型;步骤三、构建情感种子词集,具体基于情感轮模型的24种基础情感,利用步骤二训练所得的词语语义空间表示构建情感种子词集;其中,24种基础情感分为四个维度,分别为pleasantness、attention、sensitivity和aptitude;其中,每个维度包含6个基础情感,表示6个不同强度;24种基础情感包括:“狂喜(Ecstasy)”,“快乐(Joy)”,“宁静(Serenity)”,“沉思(Pensiveness)”,“哀伤(Sadness)”,“悲痛(Grief)”,“警惕(Vigilance)”,“预料(Anticipation)”,“感兴趣(Interest)”,“分心(Distraction)”,“惊奇(Surprise)”,“惊异(Amazement)”,“暴怒(Rage)”,“气愤(Anger)”,“烦恼(Annoyance)”,“忧虑(Apprehension)”,“害怕(Fear)”,“恐怖(Terror)”,“钦佩(Admiration)”,“信任(Trust)”,“接受(Acceptance)”,“无聊(Boredom)”,“嫌恶(Disgust)”,“厌恶(Loathing)”;情感种子词集的构建过程如下:步骤3.1在词语语义空间中计算24种基础情感的cosine相似度,选择相似度最近的K个词语添加进情感种子词集中;其中,K的范围是30到500;步骤3.2对添加进情感种子词集中的词语进行过滤,把每个基础情感词集中情感倾向性不一致的词语去除掉,最终得到完整的情感种子词集;步骤四、空间映射:将步骤二输出的词语语义空间表示和步骤三输出的情感种子词集通过映射函数进行空间映射,将词语语义空间中所有词语映射到情感空间的四维值表示;其中,词语语义空间到情感空间的映射方式如下:步骤4.1对于目标词w,我们计算它在情感空间中的四维值,对于每一维度,在情感种子词集中有6个强度子集;步骤4.2对每个强度的种子词计算cosine相似度,取前N个词语平均值作为该强度的打分;6个强度打分都计算完后取打分值最高的强度作本文档来自技高网
...
一种基于情感轮模型的情感词典快速构建方法

【技术保护点】
1.一种基于情感轮模型的情感词典快速构建方法,其特征在于:用于构造词汇级情感词典资源以及完成情感分析的多个任务;其中,词汇级情感词典资源,记为SentiVec;核心思想是:首先对大规模语料进行规范化处理,使用CBOW模型训练出词向量,获得词语语义空间表示;再使用词向量和少量人工筛选进行情感种子词构建,得到情感种子词集;最后基于情感轮模型完成语义空间到情感空间的映射,构建词汇级情感词典资源;包括如下步骤:步骤一、语料预处理:对待处理语料按照规则进行分词处理后得到语料集T;步骤二、经词向量训练获得词语语义空间表示,具体为:使用CBOW模型进行词向量的训练,得到词语语义空间表示;其中,CBOW模型为Mikolov提出的Continuous Bag of Words模型;步骤三、构建情感种子词集,具体基于情感轮模型的24种基础情感,利用步骤二训练所得的词语语义空间表示构建情感种子词集;其中,24种基础情感分为四个维度,分别为pleasantness、attention、sensitivity和aptitude;其中,每个维度包含6种基础情感,表示6个不同强度;步骤四、空间映射:将步骤二输出的词语语义空间表示和步骤三输出的情感种子词集通过映射函数进行空间映射,将词语语义空间中所有词语映射到情感空间的四维值表示;其中,词语语义空间到情感空间的映射方式如下:步骤4.1对于目标词w,我们计算它在情感空间中的四维值,对于每一维度,在情感种子词集中有6个强度子集;步骤4.2对每个强度的种子词计算cosine相似度,取前N个词语平均值作为该强度的打分;6个强度打分都计算完后取打分值最高的强度作为该维度的初始数值,由此得到四个维度的初始数值;步骤4.3定义公式(1)对初始数值进行调整,得到最终词语的四维情感值,完成语义空间到情感空间的转换,得到四维情感词典资源;...

【技术特征摘要】
1.一种基于情感轮模型的情感词典快速构建方法,其特征在于:用于构造词汇级情感词典资源以及完成情感分析的多个任务;其中,词汇级情感词典资源,记为SentiVec;核心思想是:首先对大规模语料进行规范化处理,使用CBOW模型训练出词向量,获得词语语义空间表示;再使用词向量和少量人工筛选进行情感种子词构建,得到情感种子词集;最后基于情感轮模型完成语义空间到情感空间的映射,构建词汇级情感词典资源;包括如下步骤:步骤一、语料预处理:对待处理语料按照规则进行分词处理后得到语料集T;步骤二、经词向量训练获得词语语义空间表示,具体为:使用CBOW模型进行词向量的训练,得到词语语义空间表示;其中,CBOW模型为Mikolov提出的ContinuousBagofWords模型;步骤三、构建情感种子词集,具体基于情感轮模型的24种基础情感,利用步骤二训练所得的词语语义空间表示构建情感种子词集;其中,24种基础情感分为四个维度,分别为pleasantness、attention、sensitivity和aptitude;其中,每个维度包含6种基础情感,表示6个不同强度;步骤四、空间映射:将步骤二输出的词语语义空间表示和步骤三输出的情感种子词集通过映射函数进行空间映射,将词语语义空间中所有词语映射到情感空间的四维值表示;其中,词语语义空间到情感空间的映射方式如下:步骤4.1对于目标词w,我们计算它在情感空间中的四维值,对于每一维度,在情感种子词集中有6个强度子集;步骤4.2对每个强度的种子词计算cosine相似度,取前N个词语平均值作为该强度的打分;6个强度打分都计算完后取打分值最高的强度作为该维度的初始数值,由此得到四个维度的初始数值;步骤4.3定义公式(1)对初始数值进行调整,得到最终词语的四维情感值,完成语义空间到情感空间的转换,得到四维情感词典资源;其中,sigmoid是激活函数;x是基础情感的强度值;α是权值;max(Vi(w))是步骤4.2中得到的目标词w的初始数值;是语义空间中词语的平均距离;公式的作用是当目标词不属于某一...

【专利技术属性】
技术研发人员:冯冲王阳
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1