一种基于情感轮模型的情感词典快速构建方法技术

技术编号：19009123 阅读：65 留言：0更新日期：2018-09-22 09:00

本发明专利技术涉及一种基于情感轮模型的情感词典快速构建方法，属于自然语言处理应用技术领域。首先对大规模语料进行规范化处理，使用CBOW模型训练出词向量，获得词语语义空间表示；再使用词向量和少量人工筛选进行情感种子词构建，得到情感种子词集；最后基于情感轮模型完成语义空间到情感空间的映射，构建词汇级情感词典资源。本发明专利技术通过设计更加准确的四维情感模型，克服了传统二维情感模型将句子倾向性绑定到词汇倾向性上导致评价不准确的缺点；本发明专利技术构建词汇级情感词典资源的过程仅需极少的人工干预，因此可以在不同语种上快速构建情感词典；本发明专利技术构建的词汇级情感词典资源在情感分析的多个任务中都取得很好的效果。

A fast construction method of emotion dictionary based on emotion wheel model

The invention relates to a fast construction method of emotion dictionary based on emotion wheel model, belonging to the technical field of natural language processing application. Firstly, large-scale corpus is normalized, and word vectors are trained by CBOW model to obtain semantic space representation of words; then emotion seed words are constructed by using word vectors and a small number of artificial screening to get emotional seed words; finally, the mapping from semantic space to emotional space is completed based on emotional wheel model, and vocabulary is constructed. Level emotional dictionary resources. By designing a more accurate four-dimensional emotion model, the invention overcomes the disadvantage that the traditional two-dimensional emotion model binds sentence orientation to lexical orientation, which leads to inaccurate evaluation; the process of constructing lexical-level emotion dictionary resources requires only minimal manual intervention, so emotion can be quickly constructed in different languages. The lexical level emotion dictionary resources constructed by the invention have achieved good results in many tasks of emotion analysis.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于情感轮模型的情感词典快速构建方法
本专利技术涉及一种情感词典的构建方法，尤其涉及一种基于情感轮模型的情感词典快速构建方法，属于自然语言处理应用

技术介绍
近年来互联网的迅猛发展有目共睹，互联网对社会生活的影响比人们所预想的更加深远和广泛。WEB1.0时代，互联网是企业的商机突破点与展示舞台；WEB2.0时代，互联网已经渗入到了万千百姓的日常生活中，成为了每个行业都必须关注并重视的互动平台。我们每个人都可以作为信息的发布者畅所欲言，而收集海量的互联网信息，则可以真正做到“集百家之言”，相对于传统的问卷调查、小组讨论、采样采访等信息搜集方法，WEB信息挖掘研究所面向的群体更广泛，结果更具代表性。如何有效利用海量的互联网内容还原出广大网民的观点、态度与关注热点至关重要，这些分析结果对于企业决策、舆情监控、信息预测等都有巨大的帮助。情感分析作为WEB信息挖掘的一个重要分支，也一直是研究的热点所在。情感分析是通过信息检索与抓取、中文分词、句法及语义结构分析、特征提取、机器学习、深度学习等自然语言处理技术，自动识别目标文本情感倾向的分类任务。根据分类数目的不同，主要分为正负二分类任务、基于用户打分的多分类任务以及基于情感类别的多分类任务。根据分析对象粒度大小的不同，主要分为词汇级情感分析、短语级情感分析、句子级情感分析、篇章级情感分析以及多篇章级情感分析。根据文本对象来源的不同，主要分为新闻类情感分析、商品评论类情感分析以及社交媒体类情感分析。情感分析的结果代表了海量文本的情感倾向性，可以帮助企业进行市场分析调研、帮助顾客做出购买决策及帮助领导者了解...
一种基于情感轮模型的情感词典快速构建方法

【技术保护点】
1.一种基于情感轮模型的情感词典快速构建方法，其特征在于：用于构造词汇级情感词典资源以及完成情感分析的多个任务；其中，词汇级情感词典资源，记为SentiVec；核心思想是：首先对大规模语料进行规范化处理，使用CBOW模型训练出词向量，获得词语语义空间表示；再使用词向量和少量人工筛选进行情感种子词构建，得到情感种子词集；最后基于情感轮模型完成语义空间到情感空间的映射，构建词汇级情感词典资源；包括如下步骤：步骤一、语料预处理：对待处理语料按照规则进行分词处理后得到语料集T；步骤二、经词向量训练获得词语语义空间表示，具体为：使用CBOW模型进行词向量的训练，得到词语语义空间表示；其中，CBOW模型为Mikolov提出的Continuous Bag of Words模型；步骤三、构建情感种子词集，具体基于情感轮模型的24种基础情感，利用步骤二训练所得的词语语义空间表示构建情感种子词集；其中，24种基础情感分为四个维度，分别为pleasantness、attention、sensitivity和aptitude；其中，每个维度包含6种基础情感，表示6个不同强度；步骤四、空间映射：将步骤二输出的词...

【技术特征摘要】
1.一种基于情感轮模型的情感词典快速构建方法，其特征在于：用于构造词汇级情感词典资源以及完成情感分析的多个任务；其中，词汇级情感词典资源，记为SentiVec；核心思想是：首先对大规模语料进行规范化处理，使用CBOW模型训练出词向量，获得词语语义空间表示；再使用词向量和少量人工筛选进行情感种子词构建，得到情感种子词集；最后基于情感轮模型完成语义空间到情感空间的映射，构建词汇级情感词典资源；包括如下步骤：步骤一、语料预处理：对待处理语料按照规则进行分词处理后得到语料集T；步骤二、经词向量训练获得词语语义空间表示，具体为：使用CBOW模型进行词向量的训练，得到词语语义空间表示；其中，CBOW模型为Mikolov提出的ContinuousBagofWords模型；步骤三、构建情感种子词集，具体基于情感轮模型的24种基础情感，利用步骤二训练所得的词语语义空间表示构建情感种子词集；其中，24种基础情感分为四个维度，分别为pleasantness、attention、sensitivity和aptitude；其中，每个维度包含6种基础情感，表示6个不同强度；步骤四、空间映射：将步骤二输出的词语语义空间表示和步骤三输出的情感种子词集通过映射函数进行空间映射，将词语语义空间中所有词语映射到情感空间的四维值表示；其中，词语语义空间到情感空间的映射方式如下：步骤4.1对于目标词w，我们计算它在情感空间中的四维值，对于每一维度，在情感种子词集中有6个强度子集；步骤4.2对每个强度的种子词计算cosine相似度，取前N个词语平均值作为该强度的打分；6个强度打分都计算完后取打分值最高的强度作为该维度的初始数值，由此得到四个维度的初始数值；步骤4.3定义公式(1)对初始数值进行调整，得到最终词语的四维情感值，完成语义空间到情感空间的转换，得到四维情感词典资源；其中，sigmoid是激活函数；x是基础情感的强度值；α是权值；max(Vi(w))是步骤4.2中得到的目标词w的初始数值；是语义空间中词语的平均距离；公式的作用是当目标词不属于某一...

【专利技术属性】
技术研发人员：冯冲，王阳，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人