一种基于多任务深度学习的商品评价分析方法技术

技术编号:22238242 阅读:19 留言:0更新日期:2019-10-09 18:08
一种基于多任务深度学习的商品评价分析方法,属于自然语言处理领域。本发明专利技术提供了一种能够实现多任务深度学习、稳定性好、准确性高的商品评价分析方法。本发明专利技术中,对文本数据集进行预处理,划分为训练集和测试集后去除停用词后,使用word2vec词向量模型将中文词语表征为词向量;输入到双通道LSTM网络中共享权重,利用样本对pair‑wise损失函数在神经网络的中间层进行特征约束,经过梯度下降法进行学习;利用softmax分类损失函数实现情感极性分析,pari‑wise损失函数学习特征分布,将softmax分类损失函数和pair‑wise损失函数结合对进行优化。本发明专利技术主要用于分析处理商品评价语言。

A Method of Commodity Evaluation and Analysis Based on Multi-Task Deep Learning

【技术实现步骤摘要】
一种基于多任务深度学习的商品评价分析方法
本专利技术属于人工智能下的自然语言处理领域,具体涉及一种基于多任务深度学习的商品评价分析方法。
技术介绍
商品评价分析主要是基于评论的情感分析,并且现有的指标是综合打分系统来分析商品。现有的商品评价分析领域主要的分析研究方法基本上还是基于规则的方法、传统的机器学习方法和深度学习方法,例如支持向量机、信息熵、条件随机场等。商品评价中的情感分析首先起源于基于语法规则的文本分析,方法比较简单,需要具有语法敏感性的研究人员建立情感分析的词典,然后将表达情感的词汇分为两个类别,对比情感词的个数来评估情感的倾向。其次是基于传统的机器学习方法,其通过机器学习算法进行情感分类,但对于本身的文本特征提取的依赖性特别严重,整个特征提取的过程受人为干扰的因素较严重。最后是现在都普遍流行使用的深度神经网络学习方法,主要使用卷积神经网络,循环神经网络和长短记忆神经网络等,深度神经网络在多个领域发挥了重大的作用,将神经网络应用于商品评价领域,可以解决传统机器学习应用中所产生的特征提取主观性难题,提升产品评价情感判断的准确性。传统的商品评价分析都是基于单任务的学习模式进行学习,对于复杂的学习任务也可以拆分成多个单任务来进行学习,然后对学习到的最后结果进行组合。而且传统的单任务学习会针对每一个任务的数据集进行训练得到最终的模型。然而,现实生活中很多任务都是有一定相关联系的,多任务的学习的主要目的就是寻找任务之间的关系,如果任务之间存在一定的关系,那么不同任务之间就可以一起学习,互相提供有用的额外信息,利用这些额外信息,就能得到鲁棒性更好地模型,也可以提高模型的泛化能力。当单个任务的数据集不够充分时,此时如果采用多任务学习就可以有很好的效果,因为多任务学习可以能够从多个任务中得到额外信息,在数据集不充足的情况下进行多个相关任务,能够使其他任务的数据集增加主任务的数据集,因此实现多任务学习的学习往往比单任务学习的效果要好,也提高了模型的稳定性。因此,就需要一种能够实现多任务深度学习、稳定性好、准确性高的商品评价分析方法。
技术实现思路
本专利技术针对现有的商品评价分析方法不能实现多任务深度学习、稳定性差、准确性差的缺陷,提供了一种能够实现多任务深度学习、稳定性好、准确性高的商品评价分析方法。本专利技术所涉及的一种基于多任务深度学习的商品评价分析方法的技术方案如下:本专利技术所涉及的一种基于多任务深度学习的商品评价分析方法,它包括以下步骤:步骤一:在网页中获取原始文本数据集,对文本数据集进行预处理,将文本数据集划分为训练集和测试集;步骤二:将训练集和测试集去除停用词后,使用word2vec词向量模型将中文词语表征为词向量,构成词向量序列;步骤三:将词向量序列的输出特征作为模型输入到双通道LSTM网络中共享权重,利用样本对pair-wise损失函数在神经网络的中间层进行特征约束,然后经过梯度下降法进行学习;步骤四:利用网络顶端的softmax分类损失函数实现情感极性分析,pari-wise损失函数利用局部分布特征学习特征分布,将softmax分类损失函数和pair-wise损失函数结合对进行优化。进一步地:在步骤一中,所述获取原始文本数据集是使用爬虫工具在窗口的评论区爬取实验数据,采用结巴分词工具对文本进行切分成中文词语序列。进一步地:在步骤二中,对训练集和测试集进行人工清晰,删除无效评价和矛盾性评论,数据标签为情感的正向和负向,正向为1,负向为0,去除停用词后,对word2vec词向量模型进行训练,把训练集和测试集采用word2vec词向量模型将中文表征为词向量,构成词向量序列。进一步地:在步骤三中,所述双通道LSTM网络是基于LSTM与特征学习的多任务学习的双通道网络。进一步地:在步骤三中,将预处理好的数据集分别送入到单通道的LSTM层中,获取各自单独的特征,将词向量矩阵作为模型的输入到基于LSTM和特征学习的多任务学习的双通道网络中,其中双通道LSTM模型包括merge融合层、dropout隐藏层和softmax层;将两个数据集输入到两个LSTM层中,对两组LSTM模型的输出特征送到merge融合层进行连接融合,经过dropout隐藏层随机让隐含层节点不起作用,共享权重,利用网络中的样本对pair-wise损失函数在神经网络的中间层进行特征约束,经过梯度下降法进行学习,最后经过softmax层进行预测情感分类。进一步地:所述dropout隐藏层作为LSTM模型中的隐藏层出现,g,h分别为cell的输入输出激活函数,D表示dropout操作符,p是一个可调的参数,计算如下:g=h*·D(p)(1)数据集x包含M个不同类别的N个不同的样本,softmax分类损失函数计算如下:其中,xi是网络关于样本xi的输出,其中i是第i个样本,y为样本的输出,W为softmax损失函数的参数,t代表样本xi的标签。进一步地:利用网络中的样本对pair-wise损失函数在神经网络的中间层进行特征约束,样本对pair-wise损失函数约束,令xi和xj是d维空间中的两个输入样本,定义Yij表示样本xi和xj之间的相似性,计算如下:定义两个样本之间的欧氏距离计算如下:Dk2(xi,xj,θ)=||fk(xi|θ)-fk(xj|θ)||22(2)其中,θ为参数、代表欧氏距离,fk(xi|θ)表示在输入为xi的时候,参数为θ的网络第k层的输出;多任务学习中采用了样本对pair-wise损失函数,其中b和m是两个超参数;具体计算如下:进一步地:在步骤四中,所述softmax分类损失函数直接利用评论的信息进行情感分类,pair-wise损失函数利用局部分布特征学习特征分布,结合pair-wise损失函数和softmax分类损失函数,样本对pair-wise损失函数和softmax分类损失函数结合,λ是超参数,W1和W2是两个softmax分类损失函数的参数;终优化问题表示如下:其中,L为总损失,N为样本的总样本个数。本专利技术所涉及的一种基于多任务深度学习的商品评价分析方法的有益效果是:本专利技术所涉及的一种基于多任务深度学习的商品评价分析方法,首先在评论网页中获取评价数据集,清洗无效评价数据,接着对文本评论进行中文分词,去除停用词,然后采用word2vec构成词向量序列,然后在将训练集放入到多任务深度学习的情感分析模型中进行训练,同时进行情感分类任务学习任务和特征学习任务,多任务学习能够有效地利用多个任务间的信息,可以学习更好的特征,提高模型的泛化性以及鲁棒性,最终实现对于商品评论分析更加准确,从而提高消费者体验。多任务学习主要有以下几个方面的优势:一是多任务学习通过挖掘不同但相关联的任务之间的关系,能够得到额外信息,大部分情况下要比单任务学习效果好,现有标签很少的情况下,单任务学习的模型不能得到充足的信息,表现较差,而多任务学习就弥补了数据不足的缺点,训练出效果更好、更鲁棒的学习模型;二是多任务学习有更好的模型泛化能力,通过同时学习多个相关的任务,得到的共享的模型能够直接用到将来的某个相关联的任务上。多任务学习不仅提高了相对于单任务学习的学习效果,也为了适应现实生活中更多的多任务学习的应用。本专利技术提出的一种基于多任务深度学习的商品评价本文档来自技高网
...

【技术保护点】
1.一种基于多任务深度学习的商品评价分析方法,其特征在于,它包括以下步骤:步骤一:在网页中获取原始文本数据集,对文本数据集进行预处理,将文本数据集划分为训练集和测试集;步骤二:将训练集和测试集去除停用词后,使用word2vec词向量模型将中文词语表征为词向量,构成词向量序列;步骤三:将词向量序列的输出特征作为模型输入到双通道LSTM网络中共享权重,利用样本对pair‑wise损失函数在神经网络的中间层进行特征约束,然后经过梯度下降法进行学习;步骤四:利用网络顶端的softmax分类损失函数实现情感极性分析,pair‑wise损失函数利用局部分布特征学习特征分布,将softmax分类损失函数和pair‑wise损失函数结合对进行优化。

【技术特征摘要】
1.一种基于多任务深度学习的商品评价分析方法,其特征在于,它包括以下步骤:步骤一:在网页中获取原始文本数据集,对文本数据集进行预处理,将文本数据集划分为训练集和测试集;步骤二:将训练集和测试集去除停用词后,使用word2vec词向量模型将中文词语表征为词向量,构成词向量序列;步骤三:将词向量序列的输出特征作为模型输入到双通道LSTM网络中共享权重,利用样本对pair-wise损失函数在神经网络的中间层进行特征约束,然后经过梯度下降法进行学习;步骤四:利用网络顶端的softmax分类损失函数实现情感极性分析,pair-wise损失函数利用局部分布特征学习特征分布,将softmax分类损失函数和pair-wise损失函数结合对进行优化。2.根据权利要求1所述的一种基于多任务深度学习的商品评价分析方法,其特征在于,在步骤一中,所述获取原始文本数据集是使用爬虫工具在窗口的评论区爬取实验数据,从中提取有用信息,清洗数据,获得有效评论数据,包括数值评分、文本评论和追加评论;所述对文本数据进行预处理的具体步骤为:使用结巴分词工具将文本评论分切成中文词语序列,对每个词分别进行标注,打上情感分析标签;随机选取数据集中的70%作为训练集,30%作为测试集。3.根据权利要求1所述的一种基于多任务深度学习的商品评价分析方法,其特征在于,在步骤二中,对训练集和测试集进行人工清晰,删除无效评价和矛盾性评论,数据标签为情感的正向和负向,正向为1,负向为0,去除停用词后,对word2vec词向量模型进行训练,把训练集和测试集采用word2vec词向量模型将中文表征为词向量,word2vec模型映射每个词到连续特征词向量,构成生成词向量矩阵。4.根据权利要求1所述的一种基于多任务深度学习的商品评价分析方法,其特征在于,在步骤三中,所述双通道LSTM网络是基于LSTM与特征学习的多任务学习的双通道网络。5.根据权利要求1所述的一种基于多任务深度学习的商品评价分析方法,其特征在于,在步骤三中,将预处理好的数据集分别送入到单通道的LSTM层中,获取各自单独的特征,将词向量矩阵作为模型的输入到基于LSTM和特征学习的多任务学习的双通道网络中,其中双通道LSTM模型包括...

【专利技术属性】
技术研发人员:谢金宝李瑞彤康守强王庆岩王玉静梁新涛
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1