融入观点句特征的汉越双语新闻情感分类方法技术

技术编号:22330186 阅读:45 留言:0更新日期:2019-10-19 12:17
本发明专利技术涉及融入观点句特征的汉越双语新闻情感分类方法,属于自然语言处理技术领域。本发明专利技术通过汉越双语词嵌入模型将汉语和越南语映射到同一个语义空间中;然后根据新闻文本的特点,使用卷积神经网络从观点句中抽取观点特征,并通过选择性门控网络将观点句特征融入隐藏层中,之后利用层次注意力机制对新闻中的情感信息进行关注,最后通过softmax对情感极性进行分类。本发明专利技术有效地提升越南语新闻情感分类的准确性。

【技术实现步骤摘要】
融入观点句特征的汉越双语新闻情感分类方法
本专利技术涉及融入观点句特征的汉越双语新闻情感分类方法,属于自然语言处理

技术介绍
情感分类是当前自然语言处理研究的热点问题,如何识别一个新闻文本的情感极性是当前的舆情监控的关键问题。通常的情感分类方法主要是构建文本的向量表征进行情感分类。相比较统计特征的文本表征方式,基于神经网络的文本建模有更好的表达能力,比如卷积神经网络(CNN)、循环神经网络(RNN)、Self-attention网络、Transformer网络等。这些文本建模方法可以有效捕捉文本的语义信息,建模文本表征。同时,注意力机制可以对文本表征中的情感相关信息进行关注,提升情感分类效果。上述方法可以广泛应用于评论文本的情感分类任务中;而对于新闻文本来说,其主要是对事实的客观描述,情感的表达并不明显。但通过观察,发现新闻的观点句中包含较多情感信息,利用这些情感信息有助于新闻情感分类。因此,为了对越南语新闻进行情感分类,提出了一种将观点句特征融入文档表征的汉越双语新闻情感分类方法。
技术实现思路
本专利技术提供了融入观点句特征的汉越双语新闻情感分类方法,通过汉越双语词嵌入模型将汉语和越南语映射到同一个语义空间中;然后根据新闻文本的特点,使用卷积神经网络从观点句中抽取观点特征,并通过选择性门控网络将观点句特征融入隐藏层中,之后利用层次注意力机制对新闻中的情感信息进行关注,最后通过softmax对情感极性进行分类;以用于有效地提升越南语新闻情感分类的准确性。本专利技术的技术方案是:融入观点句特征的汉越双语新闻情感分类方法,具体步骤如下:Step1、实验语料收集:收集汉语、越南语的新闻文本和汉越平行句对;首先,构建汉越双语词嵌入模型需要大量的汉越新闻文本以及少量的汉越平行文本。为此,从汉语和越南语新闻网站中抓取了汉越新闻各35000篇,并且从越南语学习网(http://vie.tingroom.com/)中抓取了10W条汉越平行句对;Step2、实验语料标注:为了提供监督学习的应该有的带有标签的数据,通过人工的方式标记了4000篇越南文新闻和12000篇中文新闻的观点句和情感极性,并使用这些标注数据来训练汉越新闻情感分类模型。在汉越新闻标注数据中,军事、时政、财经、娱乐4个不同领域的新闻分别占比为25%;Step3、构建汉越双语词嵌入模型:使用标注好的汉语和越南语的新闻文本以及汉越平行句对来训练汉越双语词嵌入模型;进一步地,所述步骤Step3中,分别使用标注好的汉语和越南语的新闻文本分别训练汉语和越南语的词嵌入模型,然后使用汉越平行句对词嵌入模型联合训练得到汉越双语词向量。此步骤能获得汉语和越南语的双语词向量,作为序列输入到后续模型中;Step4、使用BiLSTM网络对新闻文本进行建模:使用步骤Step3得到的汉越双语词嵌入模型将汉语和越南语标注文本的词映射到一个语义空间中,然后将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,对新闻文本进行建模,输出每一时刻的隐藏状态;通过双向LSTM网络后,能获得新闻文本的蕴含上下文信息的隐状态,从而能进行拼接得到一个完成的句子的向量表征;进一步地,利用步骤Step3构建的汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量,在所述步骤Step4中,将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,得到文档中第i句话中第j个词的隐藏状态;具体公式为:其中,表示前向LSTM网络输出的隐藏状态,表示后向LSTM网络输出的隐藏状态。Step5、观点句特征的抽取与融入:使用卷积神经网络抽取观点句特征,并且使用门控网络将观点句特征融入到隐藏状态中;通过门控网络得到的隐状态,拼接后能得到一个带有观点句子特征的句子的向量表征;进一步地,所述步骤Step5中,使用观点句特征来增强新闻文本的情感表达;通过多个不同大小的卷积核来抽取不同粒度的观点句特征,然后使用选择性门控网络将观点句特征融入模型的隐藏层中。进一步地,所述步骤Step5中,使用卷积神经网络抽取观点句特征的具体步骤如下:Step5.1.1、对于标注好的汉语和越南语文本中的每个句子,将前向LSTM网络和反向LSTM网络输出的最后一个隐状态进行拼接,得到该句子的向量表征si,具体公式为其中表示第i句第Si个词的前向LSTM网络输出的隐藏状态,表示第i句第1个词后向LSTM网络输出的隐藏状态;Step5.1.2、由于新闻文档中有多个表达观点的句子,因此将文档中标记为观点句的句子的向量表征组成一个矩阵,然后通过多个不同大小的卷积核对该矩阵进行卷积来抽取出观点句特征s′。卷积的过程如图3所示,sa和sb等都是观点句的句子表征。表1为每组卷积核的大小。组数卷积核维数1[1,400]2[2,400]3[3,400]4[4,400]5[5,400]进一步地,所述步骤Step5中,使用选择性门控网络将观点特征融入到隐藏状态hi,j中,具体过程如图3所示。选择性门控网络有三个输入,分别是Step3中输出的隐藏状态hi,j,通过卷积神经网络抽取的观点特征s′,文档中每个句子的向量表征si。在选择性门控网络中,计算文档中每个句子和观点句特征的关联程度;使用门控网络将观点句特征融入到隐藏状态中的具体步骤如下:Step5.2.1、将标注后的汉语和越南语文本中每个句子的向量表征si和观点句特征s′输入到多层感知机中,得到门控向量sGait;具体公式为:其中,Ws和Us是权重矩阵,b是偏置项,σ是sigmoid激活函数;Step5.2.2、将Step4输出的隐藏状态hi,j和门控向量sGatei相乘,得到了融入观点句特征后隐藏状态h′i,j;具体公式为:h′i,j=hi,j⊙sGatei;其中,⊙表示向量对应元素相乘。Step6、使用层次注意力机制对情感信息进行关注:对于长文档,不同的词或句子对于情感分类会有不同的作用,使用层次注意力机制分别从词级和句子级对情感相关的信息赋予不同的权重,并得到新闻文本的向量化表征;通过层级注意力,能提高重要信息在新闻文本中的权重,并得到的文本级别的向量表征;进一步地,所述步骤Step6的具体步骤如下:Step6.1、首先,第一层是句子级的注意力机制,用两层前馈神经网络来预测句子级注意力的权重打分Ai;句子级注意力机制的具体公式为其中,f是两层前馈神经网络,s′i是融入观点句信息后的句向量,θs表示前馈神经网络的参数;Step6.2、然后,第二层是词级的注意力机制,同样用两层前馈神经网络来预测词级注意力的权重打分ai.j;词级注意力机制的具体公式为其中,f同样是两层前馈神经网络,h′i,j是融入观点特征后第i句话第j个词的隐藏状态,θw是前馈神经网络的参数;Step6.3、最后,将融入观点特征后的隐藏状态h′i,j和词级注意力打分ai.j进行累积求和,并且在句子级上同样和句子级注意力打分Ai进行累积求和,得到了文本的向量表征r,具体公式为Step7、使用softmax分类器对新闻的情感极性进行分类,之后使用交叉熵损失来最小化输出结果和情感标签之间的预测误差,从而通过对预测样本和真实样本标记产生的误差反向传播指导网络参数学习;具体公式为其中,是模型预测的情感极性标签向量,yi是标记好的标签向本文档来自技高网...

【技术保护点】
1.融入观点句特征的汉越双语新闻情感分类方法,其特征在于:具体步骤如下:Step1、收集汉语、越南语的新闻文本和汉越平行句对;Step2、使用人工标注的方式对汉语、越南语的新闻文本进行观点句和情感极性的标注;Step3、使用标注好的汉语和越南语的新闻文本以及汉越平行句对来训练汉越双语词嵌入模型;Step4、使用步骤Step3得到的汉越双语词嵌入模型将汉语和越南语标注文本的词映射到一个语义空间中,然后将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,对新闻文本进行建模,输出每一时刻的隐藏状态;Step5、使用卷积神经网络抽取观点句特征,并且使用门控网络将观点句特征融入到隐藏状态中;Step6、使用层次注意力机制对情感信息进行关注:使用层次注意力机制分别从词级和句子级对情感相关的信息赋予不同的权重,并得到新闻文本的向量化表征;Step7、使用softmax分类器对新闻的情感极性进行分类。

【技术特征摘要】
1.融入观点句特征的汉越双语新闻情感分类方法,其特征在于:具体步骤如下:Step1、收集汉语、越南语的新闻文本和汉越平行句对;Step2、使用人工标注的方式对汉语、越南语的新闻文本进行观点句和情感极性的标注;Step3、使用标注好的汉语和越南语的新闻文本以及汉越平行句对来训练汉越双语词嵌入模型;Step4、使用步骤Step3得到的汉越双语词嵌入模型将汉语和越南语标注文本的词映射到一个语义空间中,然后将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,对新闻文本进行建模,输出每一时刻的隐藏状态;Step5、使用卷积神经网络抽取观点句特征,并且使用门控网络将观点句特征融入到隐藏状态中;Step6、使用层次注意力机制对情感信息进行关注:使用层次注意力机制分别从词级和句子级对情感相关的信息赋予不同的权重,并得到新闻文本的向量化表征;Step7、使用softmax分类器对新闻的情感极性进行分类。2.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法,其特征在于:所述步骤Step3中,分别使用标注好的汉语和越南语的新闻文本分别训练汉语和越南语的词嵌入模型,然后使用汉越平行句对词嵌入模型联合训练得到汉越双语词向量。3.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法,其特征在于:所述步骤Step4中,将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,得到文档中第i句话中第j个词的隐藏状态;具体公式为:其中,表示前向LSTM网络输出的隐藏状态,表示后向LSTM网络输出的隐藏状态,其中,汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量。4.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法,其特征在于:所述步骤Step5中,使用观点句特征来增强新闻文本的情感表达;通过多个不同大小的卷积核来抽取不同粒度的观点句特征,然后使用选择性门控网络将观点句特征融入模型的隐藏层中。5.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法,其特征在于:所述步骤Step5中,使用卷积神经网络抽取观点句特征的具体步骤如下:Step5.1.1、对于标注好的汉语和越南语文本中的每个句子,将前向LSTM网络和反向LSTM网络输出的最后一个隐状态进行拼接,得到该句子的向量表征si,具体公式为其中表示第i句第Si个词的前向LSTM网络输...

【专利技术属性】
技术研发人员:余正涛刘权相艳线岩团林思琦赖华王振晗
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1