当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于有监督情感文本和词向量的情感词典构建方法技术

技术编号:19139929 阅读:91 留言:0更新日期:2018-10-13 08:38
本发明专利技术提出一种基于有监督情感文本和词向量的情感词典构建方法,包括数据处理阶段、词向量情感嵌入阶段、情感词典生成阶段共三个阶段。本方法使用神经网络生成词向量,将情感嵌入到词向量内部,挖掘词与词之间的内在联系,然后构建词关系图,使用标签传播算法传播情感标签,自动构建特定领域的情感词典。通过本发明专利技术解决了基于人工和基于知识库的方法所构造的情感词典在处理特定领域的情感分析任务时不准确的问题。

An emotion dictionary construction method based on supervised sentiment text and word vector

The invention provides an emotional dictionary construction method based on supervised emotional text and word vector, which comprises three stages: data processing stage, word vector emotional embedding stage and emotion dictionary generation stage. In this method, neural network is used to generate word vectors, emotion is embedded into the word vectors, and the inner relations between words are mined. Then word relation graph is constructed. Affective tags are propagated by tag propagation algorithm, and emotion dictionaries in specific fields are automatically constructed. The invention solves the problem that the emotion dictionary constructed by the method based on artificial and knowledge base is inaccurate in dealing with the task of emotion analysis in a specific field.

【技术实现步骤摘要】
一种基于有监督情感文本和词向量的情感词典构建方法
本专利技术涉及情感分析领域,尤其是一种基于有监督情感文本和词向量的情感词典构建方法。
技术介绍
随着互联网的飞速发展,诸如微博、贴吧、论坛等各类网络平台的流行,为人们提供了众多公开发声的机会。由此产生的公开的文本数据数量众多、易于获得,且含有巨大的商业和社会价值。为了获取这些文本中人们对事物或事件的情感倾向,情感分析技术便脱颖而出。一直以来,情感词典都是情感分析的重要工具。一个优秀的情感词典可以极大地提升情感分析的效果。通常,随着应用领域的改变,词所体现的情感也会相应的改变。因此,在处理特定领域的情感分析任务时,人工整理情感词典变得费时费力,需要一种自动化的方法来构建情感词典。现有的情感词典自动构建方法分为两大类,分别是基于知识库的方法和基于语料库的方法。基于知识库的方法依赖于已有的语义知识库。这些经由人工整理的知识库中记录大量词的释义以及词与词之间的关系(如同义词、反义词)。基于知识库的方法通过这些已有的知识,构建具有高准确率和通用性的情感词典。然而,对于中文而言,整理完备的知识库相对稀缺,因此这种方法不能很好地应用于中文情感词典的构建。同时,这种方法生成的情感词典相对通用,不能很好地解决词语在不同领域情感变化的问题。基于语料库的方法可以用来生成特定领域的情感词典。这类方法对语料文本进行处理,挖掘语料中词与词之间的关系,如连词关系、共现关系等。其通过设置规则或使用统计学上的方法,将联系紧密的词聚集在一起,从而生成情感词典。这一类方法往往只考虑了词在文本中简单的关系,忽略了文本本身的复杂性,如一些复杂的句法以及否定词的影响等等,都会影响这类方法的效果。
技术实现思路
专利技术目的:本专利技术针对基于语料库的情感词典自动构建方法的不足,提出一种基于有监督情感文本和词向量的情感词典构建方法,使用神经网络生成词向量,挖掘词与词之间的内在联系,进而生成情感词典。技术方案:本专利技术提出的技术方案为:一种基于有监督情感文本和词向量的情感词典构建方法,包括步骤:(1)获取文本数据集D,文本数据集D中包括具有正面情感标记的正面情感文本和具有负面情感标记的负面情感文本;(2)对文本数据集中的文本进行预处理;构建词汇表V,将预处理后的文本数据集中的词语逐个填入词汇表V中;(3)采用SO-PMI方法计算词汇表V中各个词语的情感倾向值,根据情感倾向值确定相应词语的情感标记:其中,lablew表示词语w感情标记,SO-PMI(w)表示词语w的情感倾向值;(4)构建具有词语级别监督的改进的skip-gram模型,改进的skip-gram模型以D中的词语为输入数据,预测词语的上下文和情感标记;计算预测上下文时的损失函数losscontext,以及预测情感标记时的损失函数lossword;losscontext与lossword的表达式分别为:losscontext(wt)=-∑-k≤j≤k,j≠0logp(wt+k|wt)其中,wt表示词语,wt∈D;{wt-k,…,wt-1,wt+1,…,wt+k}表示预测出的上下文词语集合,集合中包括预测出的词语wt的前k个词和后k个词,p(wt+j|wt)表示wt+j被预测为wt的上下文的概率,p(pos|wt)表示wt被预测为具有正面情感标记的概率,p(neg|wt)表示wt被预测为具有负面情感标记的概率;(5)构建一个卷积神经网络模型作为文本级监督模型,文本级监督模型以文本数据集D中的文本为输入数据,预测文本的感情标记;计算预测出的文本的情感标记与文本实际感情标记之间的损失函数lossdoc:其中,di表示文本,di∈D;表示di的情感标签;p(pos|di)表示di被预测为具有正面情感标记的概率,p(neg|di)表示didi被预测为具有负面情感标记的概率;(6)设置联合损失函数:loss=α1·losscontext+α2·lossdoc+α3·lossword式中,α1、α2、α3分别为losscontext、lossdoc、lossword的权重系数;(7)以文本数据集D、词语的情感标记lablew、文本的情感标记为输入数据,利用反向传播算法训练联合损失函数,得到具有情感嵌入的词向量;(8)根据步骤(7)获得的具有情感嵌入的词向量构建词关系图G;(9)选取词关系图G中的部分词语作为种子词,为种子词标注情感标签,情感标签包括褒义、贬义和中性;然后使用标签传播算法将种子词的情感标签在关系图G中传播,生成情感词典。进一步的,所述情感倾向值的计算公式为:其中,SO-PMI(w)表示词语w的情感倾向值,pos表示正面情感文本,neg表示负面情感文本,p(w|pos)表示词语w在正面情感文本中出现的概率,p(w|neg)表示词语w在负面情感文本中出现的概率。进一步的,所述具有词语级别监督的改进的skip-gram模型包括输入层、投影层、输出层,输入层为文本数据集D中的词语wt,投影层将词语wt投影为词向量C(wt),输出层根据C(wt)分别预测wt的上下文和情感标记lablew。进一步的,所述文本级监督模型包括:输入层、卷积层、池化层、全连接层,其中,输入层为文本数据集D中的文本di;卷积层通过特征抽取器从文本di中抽取多个特征向量发送给池化层;池化层通过MaxPoolingOverTime操作从特征向量中选取最重要的特征向量输出给全连接层;全连接层根据收到的特征向量,通过softmax函数预测输入文本di的情感标记进一步的,所述构建词关系图G的具体步骤包括:1)对词汇表V,抽取其中的动词、形容词、副词构成新的词汇表V′;2)构建词关系图G,将V′中的词作为G中的顶点;3)对于V′中的每个词wi,计算wi与V′中其他所有词在步骤(7)得到的词向量空间中的欧氏距离,选取欧式距离最近的k个词,在词关系图G中建立wi与这k个词之间的边,边的权重计算公式为:其中,wij表示词wi和wj之间边的权重,xi、xj分别为词wi和wj的词向量,euclidean_dis(xi,xj)表示xi、xj之间的欧式距离;σ为常数参数,用于控制wij的取值。对于和词wi的距离最近的m个词之外的其他词,使wij=0有益效果:与现有技术相比,本专利技术具有以下优势:本专利技术基于有监督语料集生成情感词典,使用神经网络生成词向量,挖掘词与词之间的内在联系,使用标签传播算法传播情感标签,自动构建特定领域的情感词典。本专利技术既避免了基于知识库的情感词典构建方法无法用于特定领域情感分析的不足,相比于其他基于语料库的方法又加强了对本文中词的复杂关系的考虑。最终实现情感词典的自动构建。附图说明图1为本专利技术的整体流程图;图2为改进的skip-gram模型的结构图;图3为卷积神经网络模型的结构图。具体实施方式下面结合附图对本专利技术作更进一步的说明。图1所示为本专利技术的整体流程,本专利技术主要分为三个阶段:数据处理阶段、词向量情感嵌入阶段、情感词典生成阶段,下面结合附图1至3对各阶段的具体步骤进行详细描述。一、数据处理阶段(步骤1-3):步骤1是数据获取,即获取具有情感标签标注的文本数据集D,D中文本的情感标签分为正面和负面,使用标记表示文本di的情感,其中di=0表示负面情感标签,di=1表示正面情感标签。步本文档来自技高网
...

【技术保护点】
1.一种基于有监督情感文本和词向量的情感词典构建方法,其特征在于,包括步骤:(1)获取文本数据集D,文本数据集D中包括具有正面情感标记的正面情感文本和具有负面情感标记的负面情感文本;(2)对文本数据集中的文本进行预处理;构建词汇表V,将预处理后的文本数据集中首次出现的词语逐个填入词汇表V中;(3)采用SO‑PMI方法计算词汇表V中各个词语的情感倾向值,根据情感倾向值确定相应词语的情感标记:

【技术特征摘要】
1.一种基于有监督情感文本和词向量的情感词典构建方法,其特征在于,包括步骤:(1)获取文本数据集D,文本数据集D中包括具有正面情感标记的正面情感文本和具有负面情感标记的负面情感文本;(2)对文本数据集中的文本进行预处理;构建词汇表V,将预处理后的文本数据集中首次出现的词语逐个填入词汇表V中;(3)采用SO-PMI方法计算词汇表V中各个词语的情感倾向值,根据情感倾向值确定相应词语的情感标记:其中,lablew表示词语w感情标记,SO-PMI(w)表示词语w的情感倾向值;(4)构建具有词语级别监督的改进的skip-gram模型,改进的skip-gram模型以D中的词语为输入数据,预测词语的上下文和情感标记;计算预测上下文时的损失函数losscontext,以及预测情感标记时的损失函数lossword;losscontext与lossword的表达式分别为:其中,wt表示词语,wt∈D;{wt-k,…,wt-1,wt+1,…,wt+k}表示预测出的上下文词语集合,集合中包括预测出的词语wt的前k个词和后k个词;p(wt+j|wt)表示词wt+j被预测为wt的上下文的概率,p(pos|wt)表示wt被预测为具有正面情感标记的概率,p(neg|wt)表示wt被预测为具有负面情感标记的概率;(5)构建一个卷积神经网络模型作为文本级监督模型,文本级监督模型以文本数据集D中的文本为输入数据,预测文本的感情标记;计算预测出的文本的情感标记与文本实际感情标记之间的损失函数lossdoc:其中,di表示文本,di∈D;表示di的情感标签;p(pos|di)表示di被预测为具有正面情感标记的概率,p(neg|di)表示di被预测为具有负面情感标记的概率;(6)设置联合损失函数:loss=α1·losscontext+α2·lossdoc+α3·lossword式中,α1、α2、α3分别为losscontext、lossdoc、lossword的权重系数;(7)以文本数据集D、词语的情感标记lablew、文本的情感标记为输入数据,利用反向传播算法训练联合损失函数,得到具有情感嵌入的词向量;(8)根据步骤(7)获得的具有情感嵌入的词向量构建词关系图G...

【专利技术属性】
技术研发人员:张雷张文哲李昀姚懿荣谢俊元
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1