一种基于上下文信息和卷积神经网络的文本情感分类方法技术

技术编号:26171190 阅读:24 留言:0更新日期:2020-10-31 13:42
本发明专利技术公开了一种基于上下文信息和卷积神经网络的文本情感分类方法,步骤包括:1)文本预处理;2)文本的词向量表示;3)文本的上下文信息生成;4)神经网络模型训练和分类。本发明专利技术在词向量基础上,抽取文本的上下文信息,并将多种不同尺度的卷积核融入卷积神经网络中,既能利用文本中更丰富的语义信息,又能捕获词语之间在不同尺度的关系,实现更准确的文本情感分类。

A text sentiment classification method based on context information and convolution neural network

【技术实现步骤摘要】
一种基于上下文信息和卷积神经网络的文本情感分类方法
本专利技术属于自然语言处理技术与模式识别领域,具体地说是一种基于上下文信息和卷积神经网络的文本情感分类方法。
技术介绍
文本是互联网上信息传递的一种主要形式。与图像、声音等信息传递形式相比,文本数据量较小,但可以包含大量信息,而且可以更容易表达用户观点。互联网上存在大量带有情感倾向性的文本,这些情感倾向性文本往往以商品评论、论坛评论和博客等各种形式存在。文本情感分类是根据文本内容所体现的用户意见的情感极性将其分为正面、中性和负面三类。由于巨大的商业价值,近年来,文本情感分类在自然语言处理研究领域得到了很大的关注。传统情感分类包括支持向量机(SvM)、决策树、朴素贝叶斯分类器等。然而这些方法都存在一定缺陷,如SvM在建模复杂非线性问题时表达能力不足,决策树在噪声情况下容易出现过拟合,朴素贝叶斯分类器需要属性的独立性假设。相比传统分类方法,近年来兴起的深度学习模型则表现出了良好的自适应性和容错性。大多数基于深度学习的文本情感分类方法直接将文本表达为词向量矩阵,并利用卷积神经网络分类。词向量本文档来自技高网...

【技术保护点】
1.一种基于上下文信息和卷积神经网络的文本情感分类方法,其特征在于,包括如下步骤:/n步骤1:获取文本集合/nD={D

【技术特征摘要】
1.一种基于上下文信息和卷积神经网络的文本情感分类方法,其特征在于,包括如下步骤:
步骤1:获取文本集合
D={D1,D2,…,DN}
及对应的情感标签集合Y={y1,y2,…,yN},Dt表示第t个文本,yt表示第t个文本的情感极性:如果Dt的情感为正面,则yt=1,如果Dt的情感为负面,则yt=2,如果Dt的情感为中性,则yt=3,1≤t≤N,N为文本集合D中的文本总数;
步骤2:对文本集合D中的每个文本Dt进行分词,并对分词结果进行去除停用词,从而获得第t个文本Dt所包含的词语序列di表示Dt中的第i个词语;1≤i≤mt,mt为去除停用词后Dt中包含的词语总数,也就是文本Dt的长度;
步骤3:取文本集合D中的最长文本长度为H,将每个文本的词语序列转换成固定长度{d1,d2,…,dH},如果mt<H,则在词语序列后面补H-mt个字符NULL;
步骤4:通过查表的方式得到文本Dt的词向量矩阵Vt=[v1,v2,…,vH]∈RH×p,其中vi∈Rp为词语di的词向量表示,其中p为词向量的维度,NULL对应的词向量为全0的p维向量;
步骤5:根据文本Dt的词向量矩阵Vt,计算文本Dt的上下文矩阵Ft;
步骤6:将文本Dt的词向量矩阵Vt和上下文矩阵Ft组合成3阶张量Bt∈RH×p×2;
步骤7:应用同一尺度的卷积核集合{w1,w2,…,wQ}和极大池化操作从文本Dt的3阶张量Bt中抽取Q维特征向量其中卷积核wi的大小为l×p×2,i=1,2,…,Q,l为卷积核窗口中词的数量;
步骤8:若有不同尺度大小的卷积核r种,每种尺度下卷积核有Q个,对每种尺度下的所有卷积核,应用步骤7都能抽取Q维的特征向量,将所有不同尺度的卷积核抽取的特征向量连接为特征向量s∈RQr;
步骤9:在特征向量s上应用全连接网络进一步抽取特征:



其中,Wfc与bfc为需要根据数据训练的权重参数,f为非线性变换函数,如sigmoid、tanh、RELU;
步骤10:在特征向量上应用softmax分类器,得到文本Dt属于类别yi的概率:



其中,α1,α2,α3,β1,β2,β3为softmax分类器的系数,需要通过模型训练得到,yi=1表示正面情感,...

【专利技术属性】
技术研发人员:陈福
申请(专利权)人:上海五节数据科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1