一种基于多任务深度学习的商品评价分析方法技术

技术编号：22238242 阅读：19 留言：0更新日期：2019-10-09 18:08

一种基于多任务深度学习的商品评价分析方法，属于自然语言处理领域。本发明专利技术提供了一种能够实现多任务深度学习、稳定性好、准确性高的商品评价分析方法。本发明专利技术中，对文本数据集进行预处理，划分为训练集和测试集后去除停用词后，使用word2vec词向量模型将中文词语表征为词向量；输入到双通道LSTM网络中共享权重，利用样本对pair‑wise损失函数在神经网络的中间层进行特征约束，经过梯度下降法进行学习；利用softmax分类损失函数实现情感极性分析，pari‑wise损失函数学习特征分布，将softmax分类损失函数和pair‑wise损失函数结合对进行优化。本发明专利技术主要用于分析处理商品评价语言。

A Method of Commodity Evaluation and Analysis Based on Multi-Task Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多任务深度学习的商品评价分析方法
本专利技术属于人工智能下的自然语言处理领域，具体涉及一种基于多任务深度学习的商品评价分析方法。
技术介绍
商品评价分析主要是基于评论的情感分析，并且现有的指标是综合打分系统来分析商品。现有的商品评价分析领域主要的分析研究方法基本上还是基于规则的方法、传统的机器学习方法和深度学习方法，例如支持向量机、信息熵、条件随机场等。商品评价中的情感分析首先起源于基于语法规则的文本分析，方法比较简单，需要具有语法敏感性的研究人员建立情感分析的词典，然后将表达情感的词汇分为两个类别，对比情感词的个数来评估情感的倾向。其次是基于传统的机器学习方法，其通过机器学习算法进行情感分类，但对于本身的文本特征提取的依赖性特别严重，整个特征提取的过程受人为干扰的因素较严重。最后是现在都普遍流行使用的深度神经网络学习方法，主要使用卷积神经网络，循环神经网络和长短记忆神经网络等，深度神经网络在多个领域发挥了重大的作用，将神经网络应用于商品评价领域，可以解决传统机器学习应用中所产生的特征提取主观性难题，提升产品评价情感判断的准确性。传统的商品评价分析都是基于单任务的学习模式进行学习，对于复杂的学习任务也可以拆分成多个单任务来进行学习，然后对学习到的最后结果进行组合。而且传统的单任务学习会针对每一个任务的数据集进行训练得到最终的模型。然而，现实生活中很多任务都是有一定相关联系的，多任务的学习的主要目的就是寻找任务之间的关系，如果任务之间存在一定的关系，那么不同任务之间就可以一起学习，互相提供有用的额外信息，利用这些额外信息，就能得到鲁棒性更好地模型，也...

【技术保护点】
1.一种基于多任务深度学习的商品评价分析方法，其特征在于，它包括以下步骤：步骤一：在网页中获取原始文本数据集，对文本数据集进行预处理，将文本数据集划分为训练集和测试集；步骤二：将训练集和测试集去除停用词后，使用word2vec词向量模型将中文词语表征为词向量，构成词向量序列；步骤三：将词向量序列的输出特征作为模型输入到双通道LSTM网络中共享权重，利用样本对pair‑wise损失函数在神经网络的中间层进行特征约束，然后经过梯度下降法进行学习；步骤四：利用网络顶端的softmax分类损失函数实现情感极性分析，pair‑wise损失函数利用局部分布特征学习特征分布，将softmax分类损失函数和pair‑wise损失函数结合对进行优化。

【技术特征摘要】
1.一种基于多任务深度学习的商品评价分析方法，其特征在于，它包括以下步骤：步骤一：在网页中获取原始文本数据集，对文本数据集进行预处理，将文本数据集划分为训练集和测试集；步骤二：将训练集和测试集去除停用词后，使用word2vec词向量模型将中文词语表征为词向量，构成词向量序列；步骤三：将词向量序列的输出特征作为模型输入到双通道LSTM网络中共享权重，利用样本对pair-wise损失函数在神经网络的中间层进行特征约束，然后经过梯度下降法进行学习；步骤四：利用网络顶端的softmax分类损失函数实现情感极性分析，pair-wise损失函数利用局部分布特征学习特征分布，将softmax分类损失函数和pair-wise损失函数结合对进行优化。2.根据权利要求1所述的一种基于多任务深度学习的商品评价分析方法，其特征在于，在步骤一中，所述获取原始文本数据集是使用爬虫工具在窗口的评论区爬取实验数据，从中提取有用信息，清洗数据，获得有效评论数据，包括数值评分、文本评论和追加评论；所述对文本数据进行预处理的具体步骤为：使用结巴分词工具将文本评论分切成中文词语序列，对每个词分别进行标注，打上情感分析标签；随机选取数据集中的70％作为训练集，30％作为测试集。3.根据权利要求1所述的一种基于多任务深度学习的商品评价分析方法，其特征在于，在步骤二中，对训练集和测试集进行人工清晰，删除无效评价和矛盾性评论，数据标签为情感的正向和负向，正向为1，负向为0，去除停用词后，对word2vec词向量模型进行训练，把训练集和测试集采用word2vec词向量模型将中文表征为词向量，word2vec模型映射每个词到连续特征词向量，构成生成词向量矩阵。4.根据权利要求1所述的一种基于多任务深度学习的商品评价分析方法，其特征在于，在步骤三中，所述双通道LSTM网络是基于LSTM与特征学习的多任务学习的双通道网络。5.根据权利要求1所述的一种基于多任务深度学习的商品评价分析方法，其特征在于，在步骤三中，将预处理好的数据集分别送入到单通道的LSTM层中，获取各自单独的特征，将词向量矩阵作为模型的输入到基于LSTM和特征学习的多任务学习的双通道网络中，其中双通道LSTM模型包括...

【专利技术属性】
技术研发人员：谢金宝，李瑞彤，康守强，王庆岩，王玉静，梁新涛，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人