一种基于卷积神经网络的评论数据情感分类方法及系统技术方案

技术编号:19822445 阅读:35 留言:0更新日期:2018-12-19 14:56
本发明专利技术公开了一种基于卷积神经网络的评论数据情感分类方法及系统,本发明专利技术针对传统的情感分类方法只单独考虑影评的文本信息,而忽略了影评的背景知识导致情感分类的准确率不高的问题,本发明专利技术在原有的影评信息上添加背景知识,利用卷积神经网络提高影评情感分类准确率的方法:首先,利用SenticNet情感网络从影评的文本中得到关键词,并用Word2Vec模型得到上述关键词的向量表示;其次,用SenticNet情感网络得到每个关键词对应的背景知识;然后利用TransE模型和document2vec模型得到背景知识的向量表示;最后,利用卷积神经网络对关键词向量,背景知识向量进行处理,得到情感分类模型,提高了影评数据情感分类的准确性。

【技术实现步骤摘要】
一种基于卷积神经网络的评论数据情感分类方法及系统
本专利技术涉及评论数据情感分类领域,更具体地说,涉及一种基于卷积神经网络的评论数据情感分类方法及系统。
技术介绍
随着计算机网络的不断发展,人们从互联网获得信息的同时,也直接或者间接的在各种网络平台上发表大量的评论信息。这些评论信息表达了各种各样的感情色彩和情感倾向,比如喜、怒、哀、乐、赞扬、批评等。情感分析不仅是学术界的一个研究热点,在社交媒体领域也受到了重点的关注。对这些评论所表达的情感进行分析,可以了解大众舆论对于某一事件或产品的看法,对于指导和改善产品的服务有着重大意义。例如网友可以通过分析购物评论,决定是否购买该项产品。公司可以根据用户对商品的评价,发现自身的优势和劣势。同时,也可以将公众的情绪表达和社会事件联系起来,发现其中的一致性,预测未来事件的发展。例如电影票房的预测,选举结果的预测等。虽然情感分类在很多领域有广泛的应用,各种各样的情感分类方法也被提出,例如有基于词典的,还有基于机器学习的等。但是,目前的情感分类方法还存在着很多问题。首先是情感分类的准确度不高,这让情感分析在实际的应用中很难发挥很大的作用。其次是情感分类的方法很多都依赖于人工的设计和参与,耗费了大量的人力与物力,推广能力较差。
技术实现思路
本专利技术的目的在于,针对上述的技术缺陷,提供了一种基于卷积神经网络的评论数据情感分类方法,包含如下步骤:S1、获取训练用的评论数据集,评论数据集中包含多条评论,每条评论均对应有情感极性评价;S2、对评论数据集进行预处理,滤除其中的无用信息;S3、分别对滤除无用信息后的评论数据集进行处理,对于每一条评论:提取其中的情感关键词并获取与情感关键词对应的背景知识;S4、利用向量生成模型,对每一条评论对应的情感关键词与背景知识分别生成向量;S5、对于每一条评论:将关键词的向量进行拼接形成关键词二维矩阵,将每一个背景知识的向量分别进行拼接形成各个背景知识的背景知识二维矩阵;S6、分别将每一条评论的关键词二维矩阵、背景知识二维矩阵一起拼接为一个多通道的二维矩阵;S7、利用各条评论的多通道的二维矩阵与对应的情感极性评价进行情感分类模型训练;S8、利用训练好的情感分类模型,对待分类评论数据进行情感分类。进一步地,在本专利技术的基于卷积神经网络的评论数据情感分类方法中,步骤S1中,所述情感极性评价是指积极的情感极性评价和消极的情感极性评价两个种类。进一步地,在本专利技术的基于卷积神经网络的评论数据情感分类方法中,步骤S2中,所述无用信息包括:停用词、标定符号以及HTML标签。进一步地,在本专利技术的基于卷积神经网络的评论数据情感分类方法中,步骤S3中,所述提取其中的情感关键词并获取与情感关键词对应的背景知识采用如下方法实现:利用步骤S2处理后的数据调用SenticNet情感网络的API进行处理,调用的API种类有3类:情感关键词的API,关键词的同义词API以及关键词的释义API,得到关键词以及背景知识,其中背景知识是指:关键词的同义词和关键词的释义。进一步地,在本专利技术的基于卷积神经网络的评论数据情感分类方法中,步骤S4、S5中具体包括步骤:(1)用Word2Vec模型对关键词进行处理,得到各个关键词的向量表示,向量大小为1×M,M为大于1的正整数;将各个关键词的向量一起进行拼接,形成一个大小为N×M的二维矩阵,N表示关键词的个数;(2)用TransE模型对关键词的同义词进行处理获取N个关键词,得到每个关键词的各个同义词的向量表示,对于每一个关键词:将该关键词对应的各个同义词的向量相加后求平均得到一个大小为1×M的同义词平均向量;将各个所述同义词平均向量一起进行拼接,形成一个大小为N×M的二维矩阵;(3)用Doc2Vec模型对关键词的释义进行处理,得到各个关键词的释义的向量表示,向量大小为1×M;将各个关键词的释义的向量一起进行拼接,形成一个大小为N×M的二维矩阵。进一步地,在本专利技术的基于卷积神经网络的评论数据情感分类方法中,步骤S6中,所述多通道的二维矩阵为3通道的二维矩阵。进一步地,在本专利技术的基于卷积神经网络的评论数据情感分类方法中,步骤S7具体包括:S71、对各个多通道的二维矩阵进行卷积操作,得到矩阵的特征表示;S72、对得到的特征表示进行池化操作;S73、将池化后的矩阵连接到神经网络的全连接层上,训练分类器。根据本专利技术的另一方面,本专利技术为解决其技术问题,还提供了一种基于卷积神经网络的评论数据情感分类系统,包含如下模块:数据集获取模块,用于获取训练用的评论数据集,评论数据集中包含多条评论,每条评论均对应有情感极性评价;无用信息滤除模块,用于对评论数据集进行预处理,滤除其中的无用信息;数据提取模块,用于分别对滤除无用信息后的评论数据集进行处理,对于每一条评论:提取其中的情感关键词并获取与情感关键词对应的背景知识;生成向量模块,用于利用向量生成模型,对每一条评论对应的情感关键词与背景知识分别生成向量;二维矩阵拼接模块,用于对于每一条评论:将关键词的向量进行拼接形成关键词二维矩阵,将每一个背景知识的向量分别进行拼接形成各个背景知识的背景知识二维矩阵;多通道矩阵接模块,用于分别将每一条评论的关键词二维矩阵、背景知识二维矩阵一起拼接为一个多通道的二维矩阵;模型训练模块,用于利用各条评论的多通道的二维矩阵与对应的情感极性评价进行情感分类模型训练;情感分类模块,用于利用训练好的情感分类模型,对待分类评论数据进行情感分类。进一步地,在本专利技术的基于卷积神经网络的评论数据情感分类系统中,数据提取模块中,所述提取其中的情感关键词并获取与情感关键词对应的背景知识采用如下方法实现:利用无用信息滤除模块处理后的数据调用SenticNet情感网络的API进行处理,调用的API种类有3类:情感关键词的API,关键词的同义词API以及关键词的释义API,得到关键词以及背景知识,其中背景知识是指:关键词的同义词和关键词的释义;生成向量模块、二维矩阵拼接模块中具体包括步骤:(1)用Word2Vec模型对关键词进行处理,得到各个关键词的向量表示,向量大小为1×M,M为大于1的正整数;将各个关键词的向量一起进行拼接,形成一个大小为N×M的二维矩阵,N表示关键词的个数;(2)用TransE模型对关键词的同义词进行处理获取N个关键词,得到每个关键词的各个同义词的向量表示,对于每一个关键词:将该关键词对应的各个同义词的向量相加后求平均得到一个大小为1×M的同义词平均向量;将各个所述同义词平均向量一起进行拼接,形成一个大小为N×M的二维矩阵;(3)用Doc2Vec模型对关键词的释义进行处理,得到各个关键词的释义的向量表示,向量大小为1×M;将各个关键词的释义的向量一起进行拼接,形成一个大小为N×M的二维矩阵。进一步地,在本专利技术的基于卷积神经网络的评论数据情感分类系统中,模型训练模块具体包括如下子模块:卷积子模块,用于对各个多通道的二维矩阵进行卷积操作,得到矩阵的特征表示;池化子模块,用于对得到的特征表示进行池化操作;训练子模块,用于将池化后的矩阵连接到神经网络的全连接层上,训练分类器。以往的情感分类方法仅仅用评论数据本身作为情感分析的依据,这样的数据往往是不完整的。本专利技术利用知识图谱为原始评论数据补充了本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的评论数据情感分类方法,其特征在于,包含如下步骤:S1、获取训练用的评论数据集,评论数据集中包含多条评论,每条评论均对应有情感极性评价;S2、对评论数据集进行预处理,滤除其中的无用信息;S3、分别对滤除无用信息后的评论数据集进行处理,对于每一条评论:提取其中的情感关键词并获取与情感关键词对应的背景知识;S4、利用向量生成模型,对每一条评论对应的情感关键词与背景知识分别生成向量;S5、对于每一条评论:将关键词的向量进行拼接形成关键词二维矩阵,将每一个背景知识的向量分别进行拼接形成各个背景知识的背景知识二维矩阵;S6、分别将每一条评论的关键词二维矩阵、背景知识二维矩阵一起拼接为一个多通道的二维矩阵;S7、利用各条评论的多通道的二维矩阵与对应的情感极性评价进行情感分类模型训练;S8、利用训练好的情感分类模型,对待分类评论数据进行情感分类。

【技术特征摘要】
1.一种基于卷积神经网络的评论数据情感分类方法,其特征在于,包含如下步骤:S1、获取训练用的评论数据集,评论数据集中包含多条评论,每条评论均对应有情感极性评价;S2、对评论数据集进行预处理,滤除其中的无用信息;S3、分别对滤除无用信息后的评论数据集进行处理,对于每一条评论:提取其中的情感关键词并获取与情感关键词对应的背景知识;S4、利用向量生成模型,对每一条评论对应的情感关键词与背景知识分别生成向量;S5、对于每一条评论:将关键词的向量进行拼接形成关键词二维矩阵,将每一个背景知识的向量分别进行拼接形成各个背景知识的背景知识二维矩阵;S6、分别将每一条评论的关键词二维矩阵、背景知识二维矩阵一起拼接为一个多通道的二维矩阵;S7、利用各条评论的多通道的二维矩阵与对应的情感极性评价进行情感分类模型训练;S8、利用训练好的情感分类模型,对待分类评论数据进行情感分类。2.根据权利要求1所述的基于卷积神经网络的评论数据情感分类方法,其特征在于,步骤S1中,所述情感极性评价是指积极的情感极性评价和消极的情感极性评价两个种类。3.根据权利要求1所述的基于卷积神经网络的评论数据情感分类方法,其特征在于,步骤S2中,所述无用信息包括:停用词、标定符号以及HTML标签。4.根据权利要求1所述的基于卷积神经网络的评论数据情感分类方法,其特征在于,步骤S3中,所述提取其中的情感关键词并获取与情感关键词对应的背景知识采用如下方法实现:利用步骤S2处理后的数据调用SenticNet情感网络的API进行处理,调用的API种类有3类:情感关键词的API,关键词的同义词API以及关键词的释义API,得到关键词以及背景知识,其中背景知识是指:关键词的同义词和关键词的释义。5.根据权利要求4所述的基于卷积神经网络的评论数据情感分类方法,其特征在于,步骤S4、S5中具体包括步骤:(1)用Word2Vec模型对关键词进行处理,得到各个关键词的向量表示,向量大小为1×M,M为大于1的正整数;将各个关键词的向量一起进行拼接,形成一个大小为N×M的二维矩阵,N表示关键词的个数;(2)用TransE模型对关键词的同义词进行处理获取N个关键词,得到每个关键词的各个同义词的向量表示,对于每一个关键词:将该关键词对应的各个同义词的向量相加后求平均得到一个大小为1×M的同义词平均向量;将各个所述同义词平均向量一起进行拼接,形成一个大小为N×M的二维矩阵;(3)用Doc2Vec模型对关键词的释义进行处理,得到各个关键词的释义的向量表示,向量大小为1×M;将各个关键词的释义的向量一起进行拼接,形成一个大小为N×M的二维矩阵。6.根据权利要求4所述的基于卷积神经网络的评论数据情感分类方法,其特征在于,步骤S6中,所述多通道的二维矩阵为3通道的二维矩阵。7.根据权利要求1所述的基于卷积神经网络的评论数据情感分类方法,其特征在于,步骤S7具体包括:S...

【专利技术属性】
技术研发人员:郑坤姚宏李润佳刘超董理君康晓军
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1