【技术实现步骤摘要】
融入观点句特征的汉越双语新闻情感分类方法
本专利技术涉及融入观点句特征的汉越双语新闻情感分类方法,属于自然语言处理
技术介绍
情感分类是当前自然语言处理研究的热点问题,如何识别一个新闻文本的情感极性是当前的舆情监控的关键问题。通常的情感分类方法主要是构建文本的向量表征进行情感分类。相比较统计特征的文本表征方式,基于神经网络的文本建模有更好的表达能力,比如卷积神经网络(CNN)、循环神经网络(RNN)、Self-attention网络、Transformer网络等。这些文本建模方法可以有效捕捉文本的语义信息,建模文本表征。同时,注意力机制可以对文本表征中的情感相关信息进行关注,提升情感分类效果。上述方法可以广泛应用于评论文本的情感分类任务中;而对于新闻文本来说,其主要是对事实的客观描述,情感的表达并不明显。但通过观察,发现新闻的观点句中包含较多情感信息,利用这些情感信息有助于新闻情感分类。因此,为了对越南语新闻进行情感分类,提出了一种将观点句特征融入文档表征的汉越双语新闻情感分类方法。
技术实现思路
本专利技术提供了融入观点句特征的汉越双语新闻情感分类方法,通过汉越双语词嵌入模型将汉语和越南语映射到同一个语义空间中;然后根据新闻文本的特点,使用卷积神经网络从观点句中抽取观点特征,并通过选择性门控网络将观点句特征融入隐藏层中,之后利用层次注意力机制对新闻中的情感信息进行关注,最后通过softmax对情感极性进行分类;以用于有效地提升越南语新闻情感分类的准确性。本专利技术的技术方案是:融入观点句特征的汉越双语新闻情感分类方法,具体步骤如下:Step1、实验 ...
【技术保护点】
1.融入观点句特征的汉越双语新闻情感分类方法,其特征在于:具体步骤如下:Step1、收集汉语、越南语的新闻文本和汉越平行句对;Step2、使用人工标注的方式对汉语、越南语的新闻文本进行观点句和情感极性的标注;Step3、使用标注好的汉语和越南语的新闻文本以及汉越平行句对来训练汉越双语词嵌入模型;Step4、使用步骤Step3得到的汉越双语词嵌入模型将汉语和越南语标注文本的词映射到一个语义空间中,然后将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,对新闻文本进行建模,输出每一时刻的隐藏状态;Step5、使用卷积神经网络抽取观点句特征,并且使用门控网络将观点句特征融入到隐藏状态中;Step6、使用层次注意力机制对情感信息进行关注:使用层次注意力机制分别从词级和句子级对情感相关的信息赋予不同的权重,并得到新闻文本的向量化表征;Step7、使用softmax分类器对新闻的情感极性进行分类。
【技术特征摘要】
1.融入观点句特征的汉越双语新闻情感分类方法,其特征在于:具体步骤如下:Step1、收集汉语、越南语的新闻文本和汉越平行句对;Step2、使用人工标注的方式对汉语、越南语的新闻文本进行观点句和情感极性的标注;Step3、使用标注好的汉语和越南语的新闻文本以及汉越平行句对来训练汉越双语词嵌入模型;Step4、使用步骤Step3得到的汉越双语词嵌入模型将汉语和越南语标注文本的词映射到一个语义空间中,然后将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,对新闻文本进行建模,输出每一时刻的隐藏状态;Step5、使用卷积神经网络抽取观点句特征,并且使用门控网络将观点句特征融入到隐藏状态中;Step6、使用层次注意力机制对情感信息进行关注:使用层次注意力机制分别从词级和句子级对情感相关的信息赋予不同的权重,并得到新闻文本的向量化表征;Step7、使用softmax分类器对新闻的情感极性进行分类。2.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法,其特征在于:所述步骤Step3中,分别使用标注好的汉语和越南语的新闻文本分别训练汉语和越南语的词嵌入模型,然后使用汉越平行句对词嵌入模型联合训练得到汉越双语词向量。3.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法,其特征在于:所述步骤Step4中,将汉语或越南语标注文本中的双语词向量输入到双向LSTM网络中,得到文档中第i句话中第j个词的隐藏状态;具体公式为:其中,表示前向LSTM网络输出的隐藏状态,表示后向LSTM网络输出的隐藏状态,其中,汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量。4.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法,其特征在于:所述步骤Step5中,使用观点句特征来增强新闻文本的情感表达;通过多个不同大小的卷积核来抽取不同粒度的观点句特征,然后使用选择性门控网络将观点句特征融入模型的隐藏层中。5.根据权利要求1所述的融入观点句特征的汉越双语新闻情感分类方法,其特征在于:所述步骤Step5中,使用卷积神经网络抽取观点句特征的具体步骤如下:Step5.1.1、对于标注好的汉语和越南语文本中的每个句子,将前向LSTM网络和反向LSTM网络输出的最后一个隐状态进行拼接,得到该句子的向量表征si,具体公式为其中表示第i句第Si个词的前向LSTM网络输...
【专利技术属性】
技术研发人员:余正涛,刘权,相艳,线岩团,林思琦,赖华,王振晗,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。