利用高维表示提高特定属性情感分类准确率方法技术

技术编号:19745443 阅读:30 留言:0更新日期:2018-12-12 04:46
本发明专利技术公开了一种利用高维表示提高特定属性情感分类准确率方法,该方法从单词、子句及句子三个不同的维度,利用评论文本及其特定属性信息构建多层次、高维度的深度神经网络模型。首先本发明专利技术提出了一种子句切分的算法将评论文本切分成若干个子句;其次利用多个双向长短期记忆神经网络将每个子句中的单词进行编码,以此得到各子句的表示;最后采用一个双向长短期记忆神经网络对上一步中得到的各子句的表示进行编码以此来得到整个句子的最终表示。通过上述方法从单词、子句、句子三个不同的维度捕捉与特定属性更为相关的信息,最终提高特定属性的情感分类的准确率。

【技术实现步骤摘要】
利用高维表示提高特定属性情感分类准确率方法
本专利技术涉及评论文本表达的情感分析方法,具体的,其展示一种利用高维表示提高特定属性情感分类准确率方法。
技术介绍
为了得到评论文本中各属性的情感极性,通过情感分析(SentimentAnalysis,SA)技术,将评论文本中的属性词、情感词、情感修饰词识别出来进行进一步的分析处理,以此来判断出针对特定属性该评论文本表达的情感极性,可将其应用于事件分析、网络舆情分析、垃圾邮件处理等领域。传统的粗粒度情感分析方法在进行评论文本的情感极性判断时,仅仅是对评论文本整体进行分析处理,无法针对评论文本中的特定属性对其进行细粒度的极性判断。因此,近年来的对于情感分析的研究越来越趋向于细粒度,这也成为了国内外研究和关注的热点话题。针对评论文本中特定属性进行情感极性判断是更细粒度的评论文本情感分析,当前已有利用深度神经网络(DeepNeuralNetwork,DNN)技术对文本中的特定属性进行情感分析的研究,Tang等在“Target-dependentSentimentClassificationwithLongShort-termMemory”中针对特本文档来自技高网...

【技术保护点】
1.一种利用高维表示提高特定属性情感分类准确率方法,其特征在于:包括训练阶段和测试阶段:具体步骤为:训练阶段:S1)利用子句切分算法将句子切分为若干子句,将子句中各单词以词向量的形式表示,以单词的词向量与属性词向量拼接后的整体作为深度神经网络模型的输入,所有的未登录词均是在均匀分布U(‑0.01,0.01)中进行随机采样初始化的,词向量以及双向长短期记忆神经网络的维度均设置为300,其他超参则根据开发数据集进行相应的调整,得到训练好的深度神经网络模型;S2)所述深度神经网络模型包括单词编码层、子句编码层和softmax层共3层架构,所述单词编码层用于捕捉子句中各个单词与特定属性的相关性,所述子...

【技术特征摘要】
1.一种利用高维表示提高特定属性情感分类准确率方法,其特征在于:包括训练阶段和测试阶段:具体步骤为:训练阶段:S1)利用子句切分算法将句子切分为若干子句,将子句中各单词以词向量的形式表示,以单词的词向量与属性词向量拼接后的整体作为深度神经网络模型的输入,所有的未登录词均是在均匀分布U(-0.01,0.01)中进行随机采样初始化的,词向量以及双向长短期记忆神经网络的维度均设置为300,其他超参则根据开发数据集进行相应的调整,得到训练好的深度神经网络模型;S2)所述深度神经网络模型包括单词编码层、子句编码层和softmax层共3层架构,所述单词编码层用于捕捉子句中各个单词与特定属性的相关性,所述子句编码层将特定属性映射到子句中,所述softmax层用于将评论文本的最终表示s输入softmax分类器中,最终得到针对给定的属性该评论文本的类别概率分布;S3)所述深度神经网络模型的输入单词序列为(d+d’)维的词向量,其中d表示词向量的维度,d′表示属性词向量的维度,其中d值的大小可以根据实验情况调节;S4)模型的训练损失函数采用交叉熵损失函数(Cross-EntropyLossFunction),通过端到端(End-toEnd)的方式来训练基于高维表示的特定属性情感分类模型;S5)给定训练数据xt,at,yt,其中xt表示第t个待预测样本,at表示该样本中出现的属性,yt表示待预测样本xt针对特定属性at的真实类别标签;S6)将基于高维表示的特定属性情感分类模型看做是一个黑盒函数该函数的输出是一个向量,该向量表示的是输入文本属于各个类别标签的概率,训练的目标是最小化损失函数:上式中M表示训练样本的数目,K表示类别标签的数目,l表示偏置参数L2的正则化;S7)采用Adagrad优化函数,所有的矩阵和向量的参数均匀分布在中,其中r和c′是矩阵中行数和列数;并且在训练过程中为了避免过度拟合,在Bi-LSTM中采用了Dropout策略;测试阶段:S8)将待处理的评论文本输入训练好的深度神经网络模型,得到针对特定属性该评论文本的情感极性。2.根据权利要求1所述的利用高维表示提高特定属性情感分类准确率方法,其特征在于:子句切分算法具体为通过标点符号和连接词(统称为分隔符)来切分句子:定义了minnum参数来限制子句中至少应该包含的单词数,当且仅当minnum大于指定值的时候才将该部分句子划分为子句;此外,还定义了一个maxnum参数来保证将每个句子都切分成相同数量的子句数目,此操作的目的在于后续神经网络要求固定数目的子句作为输入;分隔符包含了标点符号和连接词即“,”,“;”,“and”,“but”,“so”,“especially”,“however”,“then”,“although”,“except”。3.根据权利要求2所述的利用高维表示提高特定属性情感分类准确率方法,其特征在于:其他超参则根据开发数据集进行相应的调整,具体来说,学习率的初始值设置为0.1,参数的正则化权重设置为10-5,DropoutRate设置为0.25。4.根据权利要求3所述的利用高维表示提高特定属性情感分类准确率方法,其特征在于:子句切分算法中将参数minnum设置为3,参数max...

【专利技术属性】
技术研发人员:谢珏吴含前李露
申请(专利权)人:凯尔博特信息科技昆山有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1