一种基于多任务学习的属性级情感分析方法技术

技术编号:24888861 阅读:53 留言:0更新日期:2020-07-14 18:16
本发明专利技术是一种基于多任务学习的属性级情感分析方法。本发明专利技术通过构建多个任务的学习模型,实现属性词抽取及其情感极性判断两个子任务的一站式完成,提高系统性能。通过构建属性词平均长度预测辅助任务降低模型属性词抽取的难度;通过构建情感词抽取和词语级情感极性分类辅助任务增强属性词情感极性判断能力;通过构建文档级文本的情感极性分类和领域分类辅助任务从较大规模语料中引入有效的语义信息;通过显式构建属性词抽取和属性词情感极性判别的特征交互单元使模型能学习到两个子任务之间的相关信息。通过实验验证本发明专利技术已达到较优的属性级情感分析性能。

【技术实现步骤摘要】
一种基于多任务学习的属性级情感分析方法
本专利技术涉及情感分析
,是一种基于多任务学习的属性级情感分析方法。
技术介绍
随着互联网电子商务的发展,人们经常在博客、论坛、社交网络、在线评论、电子商务平台中对于某些事物主动表达自己的心情、情感或态度,由此产生的主观性评论文本数量迅速增长。情感分析技术为大量的非结构化主观性文本的分析提供了重要技术手段。在情感分析任务中属性级情感分析是一个重要研究课题,侧重分析在一段非结构化主观性评论中对不同实体或属性其作者所表达的积极或消极情感。例如句子“我觉得屏幕很好,但内存太小了”,作者分别表达了对“屏幕”的积极情感和对“内存”的消极情感,在情感分析系统中通过这种细粒度的属性级情感分析技术能有效提高情感分析结果的准确性和系统实用性。属性级情感分析任务主要包括属性词抽取、情感词抽取、属性的情感极性分类等子任务,近几年在属性级情感分析各任务上以深度学习研究方法为主。,目前大多数的研究方法主要是针对属性级情感分析的某一项子任务,由于属性词、情感词及情感词极性之间存在语义上的相关性,显然这种分步解决方式会丢本文档来自技高网...

【技术保护点】
1.一种基于多任务学习的属性级情感分析方法,其特征是:包括以下步骤:/n步骤1:获取属性级情感分析的训练样本,根据属性词加情感词的联合抽取任务和属性词的情感极性预测任务生成相应的两种序列标签;根据属性词计算每个样本句子属性词平均长度预测任务;获取句中每个词的情感极性预测任务;获取用于文档级文本情感极性预测任务的训练样本,并对所述训练样本进行预处理;/n步骤2:将预处理后的所述训练样本的文本映射为通用词向量和领域词向量,并进行拼接,将拼接后的词向量输入到双向LSTM模型,得到文本序列编码,文本序列中每个token词或字对应一个编码向量;/n步骤3:将步骤2中获得的文本序列编码输入到两个参数独立的...

【技术特征摘要】
1.一种基于多任务学习的属性级情感分析方法,其特征是:包括以下步骤:
步骤1:获取属性级情感分析的训练样本,根据属性词加情感词的联合抽取任务和属性词的情感极性预测任务生成相应的两种序列标签;根据属性词计算每个样本句子属性词平均长度预测任务;获取句中每个词的情感极性预测任务;获取用于文档级文本情感极性预测任务的训练样本,并对所述训练样本进行预处理;
步骤2:将预处理后的所述训练样本的文本映射为通用词向量和领域词向量,并进行拼接,将拼接后的词向量输入到双向LSTM模型,得到文本序列编码,文本序列中每个token词或字对应一个编码向量;
步骤3:将步骤2中获得的文本序列编码输入到两个参数独立的卷积神经网络中,分别作为属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果;
步骤4:将步骤3得到的属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果分别做最大池化得到两个向量编码,通过一个全连接层后分别得到属性词平均长度预测结果,用于两个句子属性词平均长度预测任务;
步骤5:将步骤3得到的属性词加情感词的联合抽取任务的编码结果的文本序列中每个token词或字对应的编码向量,通过全连接层计算得到情感词极性预测结果,用于句中每个词的情感极性预测任务;
步骤6:将步骤3得到的属性词加情感词的联合抽取任务和属性词的情感极性预测任务编码结果同时输入特征交互单元中,计算交互信息后分别输出新的属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果;
步骤7:使用CRF模型分别对属性词加情感词的联合抽取任务和属性词的情感极性预测任务编码结果进行解码,分别得到属性词加情感词的预测序列标签,及属性词情感极性的预测序列标签;
步骤8:将预处理后的用于文档级文本情感极性预测任务的文本映射为通用词向量和领域词向量并拼接,和用于文档级文本的领域分类任务的文本仅映射为通用词向量,分别输入到与步骤2中双向LSTM模型中,分别得到文本序列编码;
步骤9:将步骤8得到两个文本序列编码分别输入到两个卷积神经网络中,分别得到卷积神经网络编码结果;
步骤10:随机初始化两个可训练的权值矩阵,与步骤9得到的两个卷积神经网络编码结果分别计算注意力权重,将编码结果沿序列维度加权和,得到最终文本向量编码;所述向量编码通过全连接层计算后得到预测结果;
步骤11:将属性词加情感词的联合抽取任务、属性词的情感极性预测任务、句子属性词平均长度预测任务和句中每个词的情感极性预测任务计算的损失作为第一部分损失,文档级文本情感极性预测任务和文档级文本的领域分类任务的损失作为第二部分损失,进行交替学习优化。


2.根据权利要求1所述的一种基于多任务学习的属性级情感分析方法,其特征是:所述训练样本进行预处理具体为:使用正则匹配对文本中日期、价格、网址、邮箱的统一替换;特殊符号和标点符号的分割;英文文本大写转小写;中文文本分词。


3.根据权利要求1所述的一种基于多任务学习的属性级情感分析方法,其特征是:所述步骤2中将预处理后的所述训练样本的文本s=[w1,w2,...,wL]映射为通用词向量和领域词向量拼接后输入到一个双向LSTM序列编码模型中,输出文本序列编码,所述文本序列编码表示


4.根据权利要求1所述的一种基于多任务学习的属性级情感分析方法,其特征是:所述骤3中将文本序列编码hS输入到两个参数独立的卷积神经网络中组件中,所述参数独立的卷积神经网络中组件的卷积计算公式为:



其中,l为卷积神经网络层数,r为不同卷积窗口大小标识,和为随机初始化的可训练参数,dS是共享特征维度,d1是卷积神经网络组件的filter数,filter窗口大小为奇数,移动步长为1,f为ReLU激活函数,卷积过程中,第i个token的表示通过其本身及其相邻的2c个词得到,即左边c个词右边c个词,不够的补0向量,使每层卷积后序列长度不变,仍和每个词位置对应,然后得到属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果和


5.根据权利要求1所述的一种基于多任务学习的属性级情感分析方法,其特征是:
所述步骤4中将属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果hAOE和hAS沿序列方向做最大池化操作,用于句子属性词平均长度预测任务,通过下式表示用于句子属性词平均长度预测任务:






其中,是最大池化的结果,为随机初始化的可训练参数,σ是sigmoid激活函数,最后得到长度预测和
计算句子属性词平均长度预测任务的均方差损失,通过下式表示句子属性词平均长度预测任务的均方差损失:



其中,为句子属性词平均长度预测任务的均方差损失,为样本真实属性词平均长度。


6.根据权利要求1所述的一种基于多任务学习的属性级情感分析方法,其特征是:
所述步骤5中取属性词...

【专利技术属性】
技术研发人员:徐冰赵铁军杨沐昀张耀杰朱聪慧曹海龙
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1