一种基于多任务学习的在线评论细粒度情感分析方法技术

技术编号:21090113 阅读:30 留言:0更新日期:2019-05-11 10:09
本发明专利技术公开了一种基于多任务学习的在线评论细粒度情感分析方法,包括文本表示矩阵依次输入文本情感特征提取器、粗粒度情感特征提取器和细粒度情感特征分类器得到细粒度情感分类结果;文本情感特征提取器选择单层CNN网络对输入的文本表示矩阵进行文本情感信息的提取得到情感表示矩阵,粗粒度情感特征提取器对输入的情感表示矩阵利用多个单层CNN网络进行粗粒度情感特征的提取得到粗粒度情感特征向量,细粒度情感特征分类器对粗粒度情感特征向量利用多层全连接神经网络进行细粒度情感分类。本发明专利技术具有分类准确、训练时间短的优点,可用于多层次多粒度的互联网用户评论的情感分析,可用于个性化推荐,智能搜索或产品反馈。

【技术实现步骤摘要】
一种基于多任务学习的在线评论细粒度情感分析方法
本专利技术属于自然语言处理领域,涉及一种基于多任务学习的在线评论细粒度情感分析方法,特别涉及自然语言情感分析方法,可用于个性化推荐,智能搜索或产品反馈。
技术介绍
随着电子商务的日益发展,在线用户评论信息数呈现井喷式增长。面临非结构化而且数据量巨大的文本信息,仅靠传统方法进行信息筛选不仅工作量非常繁重,而且很难及时有效地获取有价值的信息。如何从庞大的用户评论数据中及时高效地自动分析并且提取其中的观点信息、情感信息是当前文本挖掘领域的重要研究课题。在线评论的情感分析是一项通过分析用户在消费之后的反馈评论来挖掘用户情感倾向的技术。根据分析的角度,情感分析可以分为粗粒度情感分析和细粒度情感分析。其中粗粒度情感分析是指根据评论分析用户对产品或者消费的整体满意度,而不考虑用户对于某个产品性能或者某一方面的情感倾向。细粒度情感分析是指根据用户评论分析用户对产品或者消费的某个方面的满意度。比如根据用户对某个饭店的评论,可以挖掘出用户对于饭店的“服务态度”或者“饭菜口感”等方面的满意度。在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用。情感分析是文本挖掘的一个细分研究领域,通过运用自然语言处理、文本分析和相关计算机技术自动抽取或分类文本中的情感。现有的基于深度学习的细粒度情感分析技术的一般步骤是对每个粒度分别进行情感倾向挖掘:首先根据细粒度的不同对情感分析任务进行分解,将整个任务分解成多个粒度上的情感分析任务,并且将情感分析任务作为文本分类任务来处理,然后利用现有的文本挖掘技术对每一个细粒度上的情感倾向分别进行挖掘。但是这种方法只有在细粒度比较少时才能取得高效的效果,面对多层次、多维度的细粒度情感分析任务,这种基于粒度进行挖掘的方法面临低效率、低精度的问题,这限制了基于粒度进行情感分析方法的实际应用。情感分析可以看成是一种特殊的文本分类任务,根据表述的内容将句子分类到不同的情感类别下。借助于神经网络强大的特征提取能力,YoonKim提出了一种基于卷积神经网络的文本分类方法Text-CNN,参见“KimY.Convolutionalneuralnetworksforsentenceclassification[J].arXivpreprintarXiv:1408.5882,2014.”。对于细粒度情感分类问题,Text-CNN可以利用一维卷积神经网络提取文本的高阶特征,然后将提取出的特征输入全连接神经网络,进行分类。但是这种方法无法对多个细粒度情感进行同时分类,同样面临着低效率,过拟合的风险。由于上述基于粒度的情感分析方法精度不高而且低效,而对基于多任务的情感分析方法的研究尚处于空白。因此,研究一种更加高效的基于多任务学习的细粒度情感分析方法是本
科技人员的研究重点。
技术实现思路
本专利技术的目的在于针对上述已有技术的不足,提出一种基于多任务学习的细粒度情感分析方法,以提高分类精度,减小模型复杂度,扩展多任务学习的应用范围。为实现上述目的,本专利技术的技术方案包括如下:一种基于多任务学习的在线评论细粒度情感分析方法,包括:步骤一:文本数据进行分词、训练、映射及矩阵构造得到文本表示矩阵;步骤二:文本表示矩阵依次输入多任务情感分类网络得到细粒度情感分类结果;所述的多任务情感分类网络包括文本情感特征提取器、粗粒度情感特征提取器和细粒度情感特征分类器;文本情感特征提取器选择单层CNN网络对输入的文本表示矩阵进行文本情感信息的提取得到情感表示矩阵,粗粒度情感特征提取器对输入的情感表示矩阵利用多个单层CNN网络进行粗粒度情感特征的提取得到粗粒度情感特征向量,细粒度情感特征分类器对粗粒度情感特征向量利用多层全连接神经网络进行细粒度情感分类。可选的,所述的文本情感特征提取器为设置多种不同大小的卷积核在文本表示矩阵上进行卷积,得到文本的多尺度特征信息,将提取的多尺度特征信息进行连接。可选的,所述的文本情感特征提取器由多个卷积核大小不同的卷积层并行连接而成,以提取文本的多尺度情感特征;文本情感特征提取器的输入为文本表示矩阵,输出为情感特征矩阵;根据最终的交叉熵损失进行反向传播,训练文本情感提取器中卷积层的权重参数。可选的,所述的粗粒度情感特征提取器,将相似的细粒度情感进行组合得到粗粒度情感,利用多个卷积层进行粗粒度情感特征的提取。可选的,每一个粗粒度情感特征提取器都由多个卷积核大小不同的卷积层并行连接而成,以提取文本在此粗粒度上的多尺度情感特征;粗粒度情感特征提取器的输入为情感表示矩阵,输出为对应粗粒度的情感特征向量;根据最终的交叉熵损失进行反向传播,训练粗粒度情感特征提取器中卷积层的权重参数。可选的,对于每一个细粒度情感分类任务,利用多层全连接神经网络,对文本在相应细粒度上的情感进行分类。可选的,细粒度情感特征分类器的输入为所属粗粒度的情感特征向量,输出为文本属于每一个情感类别的概率;根据最终的交叉熵损失函数进行反向传播,训练所有细粒度情感特征分类器的权重参数。可选的,所述的文本数据的分词:利用分词工具将真实的用户评论文本数据进行分词,得到文本序列;文本数据清洗:将分词后的用户评论文本序列进行数据清洗,根据预先设置的停用词表去除文本中的停用词;词向量的训练:选定词向量维度等参数,利用词向量嵌入技术进行中文词向量的训练,并且将所有词语映射为词向量;词语到数字的映射:建立词语与数字的映射词典,记做word2index词典,将所有词语映射为从1开始的连续数字;词向量矩阵的构造:根据文本到数字的映射关系构建词向量矩阵,具体指的是将映射后的数字作为矩阵的行号,然后将对应的词向量按照顺序放入矩阵中。其中词向量矩阵第0行对应于零向量;文本数据长度的规范化:根据预先设定的句子长度阈值对所有评论文本进行处理:对于长度大于阈值的文本数字序列舍弃超出部分;对于长度不足的补零;文本表示矩阵:对于一条评论文本数据,首先根据建立的word2index词典将词语映射为对应的数字,并且进行文本长度的规范化,然后将数字作为词向量矩阵的行号进行索引,得到文本表示矩阵。可选的,还包括训练多任务情感分类网络,以所有细粒度情感的类别标签为目标训练模型,使用Adam算法优化多任务情感分类网络的目标函数进行网络训练。可选的,还包括训练多任务情感分类网络,具体还包括如下步骤:1)对于某个细粒度m,计算第m个细粒度情感多分类的交叉熵损失函数:其中,Lm代表评论数据在第m个细粒度下的交叉熵损失,yi∈{0,1}代表神经元是否属于第i类,N代表第m个细粒度的情感类别个数,pi代表情感类别属于第i类的概率;2)计算多任务细粒度情感分类网络的整体交叉熵损失函数:其中,λm代表第m个细粒度的损失在整体网络损失的权重,λm=1/M,M为细粒度个数;3)利用自适应学习率优化算法Adam优化如下目标函数,从而更新整个网络的参数,直到L的值小于0.01:4)不断重复步骤3),直到神经网络收敛,或达到预先设置的迭代次数。本专利技术与现有的技术相比具有以下优点:1、本专利技术是一种基于多任务学习的方法,可以同时得到用户评论中多层次、多粒度的情感倾向,并且相似任务同时进行特征提取可以减少模型过拟合本文档来自技高网
...

【技术保护点】
1.一种基于多任务学习的在线评论细粒度情感分析方法,其特征在于,包括:步骤一:文本数据进行分词、训练、映射及矩阵构造得到文本表示矩阵;步骤二:文本表示矩阵依次输入多任务情感分类网络得到细粒度情感分类结果;所述的多任务情感分类网络包括文本情感特征提取器、粗粒度情感特征提取器和细粒度情感特征分类器;文本情感特征提取器选择单层CNN网络对输入的文本表示矩阵进行文本情感信息的提取得到情感表示矩阵,粗粒度情感特征提取器对输入的情感表示矩阵利用多个单层CNN网络进行粗粒度情感特征的提取得到粗粒度情感特征向量,细粒度情感特征分类器对粗粒度情感特征向量利用多层全连接神经网络进行细粒度情感分类。

【技术特征摘要】
1.一种基于多任务学习的在线评论细粒度情感分析方法,其特征在于,包括:步骤一:文本数据进行分词、训练、映射及矩阵构造得到文本表示矩阵;步骤二:文本表示矩阵依次输入多任务情感分类网络得到细粒度情感分类结果;所述的多任务情感分类网络包括文本情感特征提取器、粗粒度情感特征提取器和细粒度情感特征分类器;文本情感特征提取器选择单层CNN网络对输入的文本表示矩阵进行文本情感信息的提取得到情感表示矩阵,粗粒度情感特征提取器对输入的情感表示矩阵利用多个单层CNN网络进行粗粒度情感特征的提取得到粗粒度情感特征向量,细粒度情感特征分类器对粗粒度情感特征向量利用多层全连接神经网络进行细粒度情感分类。2.根据权利要求1所述的基于多任务学习的在线评论细粒度情感分析方法,其特征在于,所述的文本情感特征提取器为设置多种不同大小的卷积核在文本表示矩阵上进行卷积,得到文本的多尺度特征信息,将提取的多尺度特征信息进行连接。3.根据权利要求1所述的基于多任务学习的在线评论细粒度情感分析方法,其特征在于,所述的文本情感特征提取器由多个卷积核大小不同的卷积层并行连接而成,以提取文本的多尺度情感特征;文本情感特征提取器的输入为文本表示矩阵,输出为文本的情感表示矩阵;根据最终的交叉熵损失进行反向传播,训练文本情感特征提取器中卷积层的权重参数。4.根据权利要求1、2或3所述的基于多任务学习的在线评论细粒度情感分析方法,其特征在于,所述的粗粒度情感特征提取器,将相似的细粒度情感进行组合得到粗粒度情感,利用多个卷积层进行粗粒度情感特征的提取。5.根据权利要求4所述的基于多任务学习的在线评论细粒度情感分析方法,其特征在于,每一个粗粒度情感特征提取器都由多个卷积核大小不同的卷积层并行连接而成,以提取文本在此粗粒度上的多尺度情感特征;粗粒度情感特征提取器的输入为文本的情感表示矩阵,输出为对应粗粒度的情感特征向量;根据最终的交叉熵损失进行反向传播,训练粗粒度情感特征提取器中卷积层的权重参数。6.根据权利要求1、2或3所述的基于多任务学习的在线评论细粒度情感分析方法,其特征在于,对于每一个细粒度情感分类任务,利用多层全连接神经网络,对文本在相应细粒度上的情感进行分类。7.根据权利要求6所述的基于多任务学习的在线评论细粒度情感分析方法,其特征在于,细粒度情感特征分类器的输入为所属粗粒度的情感特征向量,输出为文本属于...

【专利技术属性】
技术研发人员:公茂果姚传宇王善峰武越张明阳解宇
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1