基于上下文-情感词向量的文本情感分析系统技术方案

技术编号:21454153 阅读:29 留言:0更新日期:2019-06-26 04:50
一种基于上下文‑情感词向量的文本情感分析系统,包括:预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元,本发明专利技术实现了通用语料预训练模型得到的上下文词向量与目标语料情感词向量的结合,可以得到具有多语义和情感信息的上下文‑情感词向量。并用Tree‑LSTM组合上下文‑情感词向量,将句法成分结构信息融入到向量表示中,最后可以得到具有语义、情感和结构特征的句子向量用于情感分类。

【技术实现步骤摘要】
基于上下文-情感词向量的文本情感分析系统
本专利技术涉及的是一种语义处理领域的技术,具体是一种基于上下文-情感词向量和Tree-LSTM的文本情感分析系统。
技术介绍
基于深度学习的文本情感分析系统通常采用预训练模型(如word2vec,glove)来得到词向量(wordembedding),再将词向量输入到下游模型(如RNN,CNN)得到句子向量,最后利用分类器得到句子的情感极性类别(如积极,中立,消极)。上述词向量预训练模型存在以下问题:一方面word2vec只能捕获到静态词向量,即每个单词在不同上下文中的表示是相同的。而现实中单词的语义是与上下文紧密相关的。另一方面word2vec词向量只能表示单词通用的语义,不能捕获到情感极性信息,例如good和bad的情感词性相反,但其词向量很相似。近年来,ELMO、GPT、BERT等预训练模型可以得到上下文相关的词向量,并依赖于微调(fine-tune)技术来调整模型。对于情感分析任务,这样捕获到的上下文词向量仍会缺乏部分情感信息。情感词典是一个包含单词及其情感值的词典,以情感词典作为辅助信息细化词向量可以得到具有情感信息的词向量。此方法仅曾被用于调整静态词向量,未被尝试用于上下文词向量。
技术实现思路
本专利技术针对现有技术存在的上述不足,提出一种基于上下文-情感词向量的文本情感分析系统。本专利技术是通过以下技术方案实现的:本专利技术包括:预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元,其中:预处理单元通过概率上下文无关文解析(Standford-Parser,PCFG)方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词,并通过字符词典对组成每个单词的字符的转换成字符对应的索引号(ID);词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型(CNN-BIG-LSTM),根据组成单词的字符的索引号,通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量;预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型,根据上下文无关词向量得到BiLSTM神经元的隐状态,即上下文词向量;情感细化单元通过情感词典调整上下文无关词向量得到情感词向量,并将预训练单元的上下文词向量和情感词向量组合得到上下文-情感词向量;情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型,并根据上下文-情感词向量得到句子的情感分类结果。所述的字符词典是指一个包含文本单词中所有可能出现的字符,如26个英文字母。字符词典中每个字符对应一个唯一的索引号(ID)。假设词典的大小为|O|。所述的情感词典中每一行存储单词及其对应的情感值(Valence)和激励值(Arousal),其中情感值的取值范围在1-9之间,值越大表示越积极。所述的情感词向量是指:通过情感词典的分数值调整上下文词向量,使其与情感值相近的单词的词向量更相似,而远离情感值相反的单词的词向量。所述的树状LSTM模型兼具LSTM在处理序列数据上的优点且树状结构符合句子语法,可以捕捉到短语信息。本专利技术涉及一种根据上述系统的上下文-情感词向量和Tree-LSTM的文本情感分类方法,通过对语言模型进行通用语料预训练再用于对输入的句子进行处理得到上下文词向量,再用Standford-Parser解析句子得到句法结构分析树,然后对上下文无关词向量进行情感细化得到情感词向量,并学习权重对上下文词向量和情感词向量的线性组合,进而得到上下文-情感词向量以联合表示单词的语义和情感,再将上下文-情感词向量输入Tree-LSTM中,根据句法结构分析树组合单词得到句子的向量表示,最后通过softmax分类后得到输入的句子的情感分类。所述的语言模型为CNN-BIG-LSTM,该模型根据输入的句子输出其概率分布,即给定一个长度为n的句子,语言模型建模关于整个句子在通用语料中出现的概率分布P(w1,w2,…wn)。所述的通用语料预训练是指:将通用语料(如维基百科,百度百科,新闻等无标签文本)输入到预处理单元,得到单词的字符ID表示oi;将字符ID表示oi输入词向量单元,得到单词的上下文无关词向量表示ei;将词向量表示ei输入预训练单元,以语言模型为任务训练两层BiLSTM,用Adam算法优化模型参数,直到收敛。技术效果与现有技术相比,本专利技术实现了通用语料预训练模型得到的上下文词向量与目标语料情感词向量的结合,可以得到具有多语义和情感信息的上下文-情感词向量。并用Tree-LSTM组合上下文-情感词向量,将句法成分结构信息融入到向量表示中,最后可以得到具有语义、情感和结构特征的句子向量用于情感分类。附图说明图1为本专利技术结构流程示意图;图2为本专利技术词向量单元CNN-BIG-LSTM模型图;图3为本专利技术预训练单元两层biLSTM模型图;图4为本专利技术情感分类器单元Tree-LSTM模型图。具体实施方式如图1所示,本专利技术包括:预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元,其中:预处理单元通过概率上下文无关文解析(Standford-Parser,PCFG)方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词,并通过字符词典对组成每个单词的字符的转换成字符对应的索引号(ID);词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型(CNN-BIG-LSTM),根据组成单词的字符的索引号,通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量;预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型,根据上下文无关词向量得到BiLSTM神经元的隐状态,即上下文词向量;情感细化单元通过情感词典调整上下文无关词向量得到情感词向量,并将预训练单元的上下文词向量和情感词向量组合得到上下文-情感词向量;情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型,并根据上下文-情感词向量得到句子的情感分类结果。所述的输入的句子包括:通用语料和任务语料文本,当单词vi由[c1,…,ck]的字符序列组成,字符集为O,则单词vi的字符ID表示第j列表示第j个字符的ID表示,预处理单元将句法结构分析输出到情感分类器单元,将字符ID表示oi输出到词向量单元;所述的预处理单元包括:句法分析模块、字符映射模块其中:句法分析模块用Stanford-Parser处理句子输出句法分析树,字符映射模块利用字符词典将句子的每个单词的字符映射成对应的ID。所述的词向量单元包括:字符嵌入模块和字符CNN模块,其中:字符嵌入模块利用字符嵌入矩阵Q处理字符ID,输出单词字符嵌入表示。字符CNN模块与字符嵌入相连并输出单词的上下文无关向量。如图2所示,所述的词向量单元采用CNN-BIG-LSTM模型得到每个单词的上下文无关词向量:当句子s=[v1,…vi…,vm]的每个单词vi(i=1,…,m)经过预处理单元处理得到的字符ID表示(k表示vi的字符个数),字符嵌入模块中有字符嵌入矩阵Q,当每个字符的嵌入表示维度等于d,那么(|O|为字符字典的大小),则对于给定单词vi,通过查看Q可以得到vi的字符嵌入表示为第j行表示第j个字符的嵌入表示。这里,|O|设置为262,d设置为16。为了得到词向本文档来自技高网...

【技术保护点】
1.一种基于上下文‑情感词向量的文本情感分析系统,其特征在于,包括:预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元,其中:预处理单元通过概率上下文无关文解析方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词,并通过字符词典对组成每个单词的字符的转换成字符对应的索引号;词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型,根据组成单词的字符的索引号,通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量;预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型,根据上下文无关词向量得到BiLSTM神经元的隐状态,即上下文词向量;情感细化单元通过情感词典调整上下文无关词向量得到情感词向量,并将预训练单元的上下文词向量和情感词向量组合得到上下文‑情感词向量;情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型,并根据上下文‑情感词向量得到句子的情感分类结果。

【技术特征摘要】
1.一种基于上下文-情感词向量的文本情感分析系统,其特征在于,包括:预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元,其中:预处理单元通过概率上下文无关文解析方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词,并通过字符词典对组成每个单词的字符的转换成字符对应的索引号;词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型,根据组成单词的字符的索引号,通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量;预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型,根据上下文无关词向量得到BiLSTM神经元的隐状态,即上下文词向量;情感细化单元通过情感词典调整上下文无关词向量得到情感词向量,并将预训练单元的上下文词向量和情感词向量组合得到上下文-情感词向量;情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型,并根据上下文-情感词向量得到句子的情感分类结果。2.根据权利要求1所述的系统,其特征是,所述的情感词典中每一行存储单词及其对应的情感值和激励值,其中情感值的取值范围在1-9之间,值越大表示越积极;所述的情感词向量是指:通过情感词典的分数值调整上下文词向量,使其与情感值相近的单词的词向量更相似,而远离情感值相反的单词的词向量。3.根据权利要求1所述的系统,其特征是,所述的词向量单元包括:字符嵌入模块和字符CNN模块,其中:字符嵌入模块利用字符嵌入矩阵Q处理字符ID,输出单词字符嵌入表示,字符CNN模块与字符嵌入相连并输出单词的上下文无关向量;所述的词向量单元采用CNN-BIG-LSTM模型得到每个单词的上下文无关词向量:当句子s=[v1,...vi...,vm]的每个单词vi,i=1,...,m经过预处理单元处理得到的字符ID表示,k表示vi的字符个数,字符嵌入模块中有字符嵌入矩阵Q,当每个字符的嵌入表示维度等于d,那么|O|为字符字典的大小,则对于给定单词vi,通过查看Q可以得到vi的字符嵌入表示为第j行表示第j个字符的嵌入表示。4.根据权利要求1所述的系统,其特征是,所述的预训练单元包括:前向LSTM模块、后向LSTM模块和softmax模块,其中:前向LSTM模块处理上下文无关词向量输出前向隐状态,后向LSTM模块处理上下文无关词向量输出后向隐状态,softmax模块与前向LSTM模块和后向LSTM模块相连输出单词的概率分布。5.根据权利要求1或4所述的系统,其特征是,所述的预训练单元依次进行通用语料预训练和获取目标语料上下文向量,具体包括:①将通用语料经过词向量单元得到的上下文无关词向量E输入两层BiLSTM结构的语言模型进行训练:当输入的文本s=[v1,...,vm]包含m个单词,前向语言模型计算给定前t-1个单词(v1,...,vt-1)的条件下,第t个单词vt的概率分布:p(vt|v1,...,vt-1);则文本s的概率为:后向语言模型则是根据vt后面的单词来预测其概率分布:单词vi的上下文无关向量为ei,将ei传递给biLSTM模型,则会在每个biLSTM层得到得到vi的隐状态表示和其中:j=1,2;是前向LSTM计算得到的单词vi的上文相关表示,是后向LSTM计算得到的vi的下文相关表示;vi的概率分布根据softmax函数计算得到:其中:Θs为模型参数;②将目标语料经过词向量单元得到的上下文无关词向量E输入预训练单元...

【专利技术属性】
技术研发人员:金悦媛饶若楠
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1