一种基于有监督情感文本和词向量的情感词典构建方法技术

技术编号：19139929 阅读：91 留言：0更新日期：2018-10-13 08:38

本发明专利技术提出一种基于有监督情感文本和词向量的情感词典构建方法，包括数据处理阶段、词向量情感嵌入阶段、情感词典生成阶段共三个阶段。本方法使用神经网络生成词向量，将情感嵌入到词向量内部，挖掘词与词之间的内在联系，然后构建词关系图，使用标签传播算法传播情感标签，自动构建特定领域的情感词典。通过本发明专利技术解决了基于人工和基于知识库的方法所构造的情感词典在处理特定领域的情感分析任务时不准确的问题。

An emotion dictionary construction method based on supervised sentiment text and word vector

The invention provides an emotional dictionary construction method based on supervised emotional text and word vector, which comprises three stages: data processing stage, word vector emotional embedding stage and emotion dictionary generation stage. In this method, neural network is used to generate word vectors, emotion is embedded into the word vectors, and the inner relations between words are mined. Then word relation graph is constructed. Affective tags are propagated by tag propagation algorithm, and emotion dictionaries in specific fields are automatically constructed. The invention solves the problem that the emotion dictionary constructed by the method based on artificial and knowledge base is inaccurate in dealing with the task of emotion analysis in a specific field.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于有监督情感文本和词向量的情感词典构建方法
本专利技术涉及情感分析领域，尤其是一种基于有监督情感文本和词向量的情感词典构建方法。
技术介绍
随着互联网的飞速发展，诸如微博、贴吧、论坛等各类网络平台的流行，为人们提供了众多公开发声的机会。由此产生的公开的文本数据数量众多、易于获得，且含有巨大的商业和社会价值。为了获取这些文本中人们对事物或事件的情感倾向，情感分析技术便脱颖而出。一直以来，情感词典都是情感分析的重要工具。一个优秀的情感词典可以极大地提升情感分析的效果。通常，随着应用领域的改变，词所体现的情感也会相应的改变。因此，在处理特定领域的情感分析任务时，人工整理情感词典变得费时费力，需要一种自动化的方法来构建情感词典。现有的情感词典自动构建方法分为两大类，分别是基于知识库的方法和基于语料库的方法。基于知识库的方法依赖于已有的语义知识库。这些经由人工整理的知识库中记录大量词的释义以及词与词之间的关系(如同义词、反义词)。基于知识库的方法通过这些已有的知识，构建具有高准确率和通用性的情感词典。然而，对于中文而言，整理完备的知识库相对稀缺，因此这种方法不能很好地应用于中文情感词典的构建。同时，这种方法生成的情感词典相对通用，不能很好地解决词语在不同领域情感变化的问题。基于语料库的方法可以用来生成特定领域的情感词典。这类方法对语料文本进行处理，挖掘语料中词与词之间的关系，如连词关系、共现关系等。其通过设置规则或使用统计学上的方法，将联系紧密的词聚集在一起，从而生成情感词典。这一类方法往往只考虑了词在文本中简单的关系，忽略了文本本身的复杂性，如一些复杂的句法...

【技术保护点】
1.一种基于有监督情感文本和词向量的情感词典构建方法，其特征在于，包括步骤：(1)获取文本数据集D，文本数据集D中包括具有正面情感标记的正面情感文本和具有负面情感标记的负面情感文本；(2)对文本数据集中的文本进行预处理；构建词汇表V，将预处理后的文本数据集中首次出现的词语逐个填入词汇表V中；(3)采用SO‑PMI方法计算词汇表V中各个词语的情感倾向值，根据情感倾向值确定相应词语的情感标记：

【技术特征摘要】
1.一种基于有监督情感文本和词向量的情感词典构建方法，其特征在于，包括步骤：(1)获取文本数据集D，文本数据集D中包括具有正面情感标记的正面情感文本和具有负面情感标记的负面情感文本；(2)对文本数据集中的文本进行预处理；构建词汇表V，将预处理后的文本数据集中首次出现的词语逐个填入词汇表V中；(3)采用SO-PMI方法计算词汇表V中各个词语的情感倾向值，根据情感倾向值确定相应词语的情感标记：其中，lablew表示词语w感情标记，SO-PMI(w)表示词语w的情感倾向值；(4)构建具有词语级别监督的改进的skip-gram模型，改进的skip-gram模型以D中的词语为输入数据，预测词语的上下文和情感标记；计算预测上下文时的损失函数losscontext，以及预测情感标记时的损失函数lossword；losscontext与lossword的表达式分别为：其中，wt表示词语，wt∈D；{wt-k,…,wt-1,wt+1,…,wt+k}表示预测出的上下文词语集合，集合中包括预测出的词语wt的前k个词和后k个词；p(wt+j|wt)表示词wt+j被预测为wt的上下文的概率，p(pos|wt)表示wt被预测为具有正面情感标记的概率，p(neg|wt)表示wt被预测为具有负面情感标记的概率；(5)构建一个卷积神经网络模型作为文本级监督模型，文本级监督模型以文本数据集D中的文本为输入数据，预测文本的感情标记；计算预测出的文本的情感标记与文本实际感情标记之间的损失函数lossdoc：其中，di表示文本，di∈D；表示di的情感标签；p(pos|di)表示di被预测为具有正面情感标记的概率，p(neg|di)表示di被预测为具有负面情感标记的概率；(6)设置联合损失函数：loss＝α1·losscontext+α2·lossdoc+α3·lossword式中，α1、α2、α3分别为losscontext、lossdoc、lossword的权重系数；(7)以文本数据集D、词语的情感标记lablew、文本的情感标记为输入数据，利用反向传播算法训练联合损失函数，得到具有情感嵌入的词向量；(8)根据步骤(7)获得的具有情感嵌入的词向量构建词关系图G...

【专利技术属性】
技术研发人员：张雷，张文哲，李昀，姚懿荣，谢俊元，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人