基于上下文-情感词向量的文本情感分析系统技术方案

技术编号：21454153 阅读：29 留言：0更新日期：2019-06-26 04:50

一种基于上下文‑情感词向量的文本情感分析系统，包括：预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元，本发明专利技术实现了通用语料预训练模型得到的上下文词向量与目标语料情感词向量的结合，可以得到具有多语义和情感信息的上下文‑情感词向量。并用Tree‑LSTM组合上下文‑情感词向量，将句法成分结构信息融入到向量表示中，最后可以得到具有语义、情感和结构特征的句子向量用于情感分类。

全部详细技术资料下载

【技术实现步骤摘要】
基于上下文-情感词向量的文本情感分析系统
本专利技术涉及的是一种语义处理领域的技术，具体是一种基于上下文-情感词向量和Tree-LSTM的文本情感分析系统。
技术介绍
基于深度学习的文本情感分析系统通常采用预训练模型(如word2vec，glove)来得到词向量(wordembedding)，再将词向量输入到下游模型(如RNN,CNN)得到句子向量，最后利用分类器得到句子的情感极性类别(如积极，中立，消极)。上述词向量预训练模型存在以下问题：一方面word2vec只能捕获到静态词向量，即每个单词在不同上下文中的表示是相同的。而现实中单词的语义是与上下文紧密相关的。另一方面word2vec词向量只能表示单词通用的语义，不能捕获到情感极性信息，例如good和bad的情感词性相反，但其词向量很相似。近年来，ELMO、GPT、BERT等预训练模型可以得到上下文相关的词向量，并依赖于微调(fine-tune)技术来调整模型。对于情感分析任务，这样捕获到的上下文词向量仍会缺乏部分情感信息。情感词典是一个包含单词及其情感值的词典，以情感词典作为辅助信息细化词向量可以得到具有情感信息的词向量。此方法仅曾被用于调整静态词向量，未被尝试用于上下文词向量。
技术实现思路
本专利技术针对现有技术存在的上述不足，提出一种基于上下文-情感词向量的文本情感分析系统。本专利技术是通过以下技术方案实现的：本专利技术包括：预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元，其中：预处理单元通过概率上下文无关文解析(Standford-Parser,PCFG)方法跟据输入句子的单词分...

【技术保护点】
1.一种基于上下文‑情感词向量的文本情感分析系统，其特征在于，包括：预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元，其中：预处理单元通过概率上下文无关文解析方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词，并通过字符词典对组成每个单词的字符的转换成字符对应的索引号；词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型，根据组成单词的字符的索引号，通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量；预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型，根据上下文无关词向量得到BiLSTM神经元的隐状态，即上下文词向量；情感细化单元通过情感词典调整上下文无关词向量得到情感词向量，并将预训练单元的上下文词向量和情感词向量组合得到上下文‑情感词向量；情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型，并根据上下文‑情感词向量得到句子的情感分类结果。

【技术特征摘要】
1.一种基于上下文-情感词向量的文本情感分析系统，其特征在于，包括：预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元，其中：预处理单元通过概率上下文无关文解析方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词，并通过字符词典对组成每个单词的字符的转换成字符对应的索引号；词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型，根据组成单词的字符的索引号，通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量；预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型，根据上下文无关词向量得到BiLSTM神经元的隐状态，即上下文词向量；情感细化单元通过情感词典调整上下文无关词向量得到情感词向量，并将预训练单元的上下文词向量和情感词向量组合得到上下文-情感词向量；情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型，并根据上下文-情感词向量得到句子的情感分类结果。2.根据权利要求1所述的系统，其特征是，所述的情感词典中每一行存储单词及其对应的情感值和激励值，其中情感值的取值范围在1-9之间，值越大表示越积极；所述的情感词向量是指：通过情感词典的分数值调整上下文词向量，使其与情感值相近的单词的词向量更相似，而远离情感值相反的单词的词向量。3.根据权利要求1所述的系统，其特征是，所述的词向量单元包括：字符嵌入模块和字符CNN模块，其中：字符嵌入模块利用字符嵌入矩阵Q处理字符ID，输出单词字符嵌入表示，字符CNN模块与字符嵌入相连并输出单词的上下文无关向量；所述的词向量单元采用CNN-BIG-LSTM模型得到每个单词的上下文无关词向量：当句子s＝[v1，...vi...，vm]的每个单词vi，i＝1，...，m经过预处理单元处理得到的字符ID表示，k表示vi的字符个数，字符嵌入模块中有字符嵌入矩阵Q，当每个字符的嵌入表示维度等于d，那么|O|为字符字典的大小，则对于给定单词vi，通过查看Q可以得到vi的字符嵌入表示为第j行表示第j个字符的嵌入表示。4.根据权利要求1所述的系统，其特征是，所述的预训练单元包括：前向LSTM模块、后向LSTM模块和softmax模块，其中：前向LSTM模块处理上下文无关词向量输出前向隐状态，后向LSTM模块处理上下文无关词向量输出后向隐状态，softmax模块与前向LSTM模块和后向LSTM模块相连输出单词的概率分布。5.根据权利要求1或4所述的系统，其特征是，所述的预训练单元依次进行通用语料预训练和获取目标语料上下文向量，具体包括：①将通用语料经过词向量单元得到的上下文无关词向量E输入两层BiLSTM结构的语言模型进行训练：当输入的文本s＝[v1，...，vm]包含m个单词，前向语言模型计算给定前t-1个单词(v1，...，vt-1)的条件下，第t个单词vt的概率分布：p(vt|v1，...，vt-1)；则文本s的概率为：后向语言模型则是根据vt后面的单词来预测其概率分布：单词vi的上下文无关向量为ei，将ei传递给biLSTM模型，则会在每个biLSTM层得到得到vi的隐状态表示和其中：j＝1，2；是前向LSTM计算得到的单词vi的上文相关表示，是后向LSTM计算得到的vi的下文相关表示；vi的概率分布根据softmax函数计算得到：其中：Θs为模型参数；②将目标语料经过词向量单元得到的上下文无关词向量E输入预训练单元...

【专利技术属性】
技术研发人员：金悦媛，饶若楠，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人