一种文本情感分析模型的优化方法及装置制造方法及图纸

技术编号:27935605 阅读:12 留言:0更新日期:2021-04-02 14:15
本申请实施例提供一种文本情感分析模型的优化方法及装置,涉及文本分析技术领域。该方法包括将第一词向量输入对抗Dropout的情感词注意力模型和自适应尺度注意力模型,获得情感词注意力特征和自适应尺度注意力特征;将添加对抗扰动的第二词向量输入对抗Dropout的情感词注意力模型、随机Dropout的情感词注意力模型、对抗Dropout的自适应尺度注意力模型和随机Dropout的自适应尺度注意力模型,获得对抗情感词注意力特征、对抗自适应尺度注意力特征;再并最小化总损失,以优化模型,该方法结合情感词的全局注意力机制、自适应尺度的局部注意力机制和对抗Dropout并对模型进行优化,提高模型的鲁棒性和情感分类结果的准确性,解决了现有方法鲁棒性较低、结果不准确的问题。

【技术实现步骤摘要】
一种文本情感分析模型的优化方法及装置
本申请涉及文本分析
,具体而言,涉及一种文本情感分析模型的优化方法及装置。
技术介绍
随着社交软件和电商平台等应用的蓬勃发展,存在于这些应用中的海量文本数据蕴含着大众对某些热点事件的情感态度,传统的文本情感分析方法鲁棒性较低,在文本被恶意添加扰动或被破坏时,将对情感分析系统造成一定的干扰,导致结果误判。
技术实现思路
本申请实施例的目的在于提供一种文本情感分析模型的优化方法及装置,结合基于情感词的全局注意力机制、基于自适应尺度的局部注意力机制和对抗Dropout并对模型进行优化,提高模型的鲁棒性和情感分类结果的准确性,解决现有方法鲁棒性较低、结果不准确的问题。本申请实施例提供了一种文本情感分析模型的优化方法,所述方法包括:获取输入文本对应的第一词向量;将所述第一词向量分别输入预设的对抗Dropout的情感词注意力模型和对抗Dropout的自适应尺度注意力模型,以分别获得情感词注意力特征和自适应尺度注意力特征;对所述第一词向量添加对抗扰动以生成第二词向量;将所述第二词向量分别输入对抗Dropout的情感词注意力模型和随机Dropout的情感词注意力模型,以对所述对抗Dropout的情感词注意力模型进行基于情感词的注意力计算,并获得对抗情感词注意力特征;将所述第二词向量分别输入对抗Dropout的自适应尺度注意力模型和随机Dropout的自适应尺度注意力模型,以对所述对抗Dropout的自适应尺度注意力模型进行基于自适应尺度的注意力计算,并获得对抗自适应尺度注意力特征;将所述情感词注意力特征和所述自适应尺度注意力特征进行拼接生成融合特征;基于所述融合特征、所述对抗情感词注意力特征和所述对抗自适应尺度注意力特征并利用分类器获取总损失;最小化所述总损失,以优化文本情感分析模型。在上述实现过程中,本申请中的融合对抗训练和对抗Dropout方法的文本情感分析模型,采用对抗训练在输入层对文本添加对抗扰动来训练对抗样本,同时在网络的隐藏层进行对抗性Dropout,以动态遮蔽适当数量的神经元,从而提高模型鲁棒性,注意力机制包括基于情感词的全局注意力机制和基于自适应尺度的局部注意力机制,将两者结合可提高情感分类结果的准确性,通过总损失表征模型的性能,并通过减小总损失对模型进行优化,从而进一步提高模型性能。进一步地,所述方法还包括:构建LSTM模型,以生成情感词注意力模型;构建卷积神经网络模型,以生成自适应尺度注意力模型。在上述实现过程中,情感词注意力机制可采用LSTM模型实现,自适应尺度注意力机制可采用卷积神经网络模型实现,将两者结合,前者既关注到情感词又保留了文本信息的完整性,后者既可以自适应地选择合适的尺度又捕捉到重要的局部信息,因此有利于提高情感分类结果的准确性。进一步地,所述将所述第一词向量输入对抗Dropout的情感词注意力模型,以获得情感词注意力特征,包括:通过所述LSTM模型和所述第一词向量获取每个时刻的隐藏层输出状态的注意力权重;所述注意力权重为:且其中,score(hi)=Vαtanh(hiWα+bα)表示第i个时刻隐藏输出状态hi的注意力得分,m表示所述输入文本的长度,Wα表示注意力权重矩阵,bα表示对应的偏置项;基于所述每个时刻的隐藏层输出状态以及对应的注意力权重获取所述情感词注意力特征;所述情感词注意力特征为:在上述实现过程中,通过LSTM模型进行特征提取,是一种全局的注意力机制,基于情感词的注意力机制偏向对特征本身进行注意力计算,模型会给予情感词较大的权重,从而关注到情感词的作用。进一步地,所述将所述第一词向量输入对抗Dropout的自适应尺度注意力模型,以获得自适应尺度注意力特征,包括:将所述第一词向量输入卷积核大小不同的卷积层以得到不同尺度对应的尺度特征;将每个所述尺度特征进行标量表示并进行拼接生成标量集合;所述标量集合为:S={l∈Lsl};其中,l表示第l种卷积核,L表示卷积核的种类,sl表示所述尺度特征进行标量值,K表示尺度特征的维度,xl表示第l种卷积核进行卷积操作后得到的尺度特征;根据所述标量集合计算所述尺度特征的注意力权重集合;所述注意力权重集合为:α=softmax(MLP(S));其中,MLP表示多层感知机;根据所述尺度特征和对应的注意力权重获取所述自适应尺度注意力特征;所述自适应尺度注意力特征表示为:且其中,αl表示第l个尺度特征的注意力权重,表示第l个尺度特征的自适应尺度注意力特征,表示自适应尺度注意力特征的集合。在上述实现过程中,自适应尺度注意力机制采用卷积神经网络模型,通过卷积层进行特征提取,再经过尺度集合和尺度重组从而得到自适应尺度注意力特征。进一步地,所述基于所述融合特征、所述对抗情感词注意力特征和所述对抗自适应尺度注意力特征并利用分类器获取总损失,包括:基于所述融合特征利用Softmax分类器进行计算,得到分类损失,所述分类损失可更新所述对抗扰动;所述分类损失为:其中,yi为真实类别,为预测类别,N为样本总数量;将所述对抗情感词注意力特征和所述对抗自适应尺度注意力特征分别利用分类器进行计算,分别得到情感词对抗损失和自适应尺度对抗损失;所述情感词对抗损失为:其中,r′αp表示所述对抗扰动,ε′AdD表示LSTM模型的对抗Dropout遮蔽,N为样本总数量,sn表示所述输入文本的词向量集合,yn表示所述输入文本对应的标签,θ表示LSTM的参数;所述自适应尺度(CNN)对抗损失为:其中,ε″αdD表示CNN的对抗Dropout遮蔽,表示CNN参数;基于所述分类损失、所述情感词对抗损失和所述自适应尺度对抗损失获得总损失;所述总损失为:Ltotal=LLSTM_ATAdD_Att+LCNN_ATAdD_Att+LClass;其中,Ltotal为总损失,LLSTM_ATAdD_Att为情感词对抗损失,LCNN_ATAdD_Att为自适应尺度对抗损失,LClass为分类损失。在上述实现过程中,将分类损失、情感词对抗损失和自适应尺度对抗损失之和作为模型的总损失,该总损失可以表征模型的性能,并可通过最小化总损失来优化模型。本申请实施例还提供一种文本情感分析模型的优化装置,所述装置包括:词向量获取模块,用于获取输入文本对应的第一词向量;第一特征获取模块,用于将所述第一词向量分别输入预设的对抗Dropout的情感词注意力模型和对抗Dropout的自适应尺度注意力模型,以分别获得情感词注意力特征和自适应尺度注意力特征;词向量生成模块,用于对所述第一词向量添加对抗扰动以生成第二词向量;本文档来自技高网...

【技术保护点】
1.一种文本情感分析模型的优化方法,其特征在于,所述方法包括:/n获取输入文本对应的第一词向量;/n将所述第一词向量分别输入预设的对抗Dropout的情感词注意力模型和对抗Dropout的自适应尺度注意力模型,以分别获得情感词注意力特征和自适应尺度注意力特征;/n对所述第一词向量添加对抗扰动以生成第二词向量;/n将所述第二词向量分别输入对抗Dropout的情感词注意力模型和随机Dropout的情感词注意力模型,以对所述对抗Dropout的情感词注意力模型进行基于情感词的注意力计算,并获得对抗情感词注意力特征;/n将所述第二词向量分别输入对抗Dropout的自适应尺度注意力模型和随机Dropout的自适应尺度注意力模型,以对所述对抗Dropout的自适应尺度注意力模型进行基于自适应尺度的注意力计算,并获得对抗自适应尺度注意力特征;/n将所述情感词注意力特征和所述自适应尺度注意力特征进行拼接生成融合特征;/n基于所述融合特征、所述对抗情感词注意力特征和所述对抗自适应尺度注意力特征并利用分类器获取总损失;/n最小化所述总损失,以优化文本情感分析模型。/n

【技术特征摘要】
1.一种文本情感分析模型的优化方法,其特征在于,所述方法包括:
获取输入文本对应的第一词向量;
将所述第一词向量分别输入预设的对抗Dropout的情感词注意力模型和对抗Dropout的自适应尺度注意力模型,以分别获得情感词注意力特征和自适应尺度注意力特征;
对所述第一词向量添加对抗扰动以生成第二词向量;
将所述第二词向量分别输入对抗Dropout的情感词注意力模型和随机Dropout的情感词注意力模型,以对所述对抗Dropout的情感词注意力模型进行基于情感词的注意力计算,并获得对抗情感词注意力特征;
将所述第二词向量分别输入对抗Dropout的自适应尺度注意力模型和随机Dropout的自适应尺度注意力模型,以对所述对抗Dropout的自适应尺度注意力模型进行基于自适应尺度的注意力计算,并获得对抗自适应尺度注意力特征;
将所述情感词注意力特征和所述自适应尺度注意力特征进行拼接生成融合特征;
基于所述融合特征、所述对抗情感词注意力特征和所述对抗自适应尺度注意力特征并利用分类器获取总损失;
最小化所述总损失,以优化文本情感分析模型。


2.根据权利要求1所述的文本情感分析模型的优化方法,其特征在于,所述方法还包括:
构建LSTM模型,以生成情感词注意力模型;
构建卷积神经网络模型,以生成自适应尺度注意力模型。


3.根据权利要求2所述的文本情感分析模型的优化方法,其特征在于,所述将所述第一词向量输入对抗Dropout的情感词注意力模型,以获得情感词注意力特征,包括:
通过所述LSTM模型和所述第一词向量获取每个时刻的隐藏层输出状态的注意力权重;
所述注意力权重为:




其中,score(hi)=Vαtanh(hiWα+bα)表示第i个时刻隐藏输出状态hi的注意力得分,m表示所述输入文本的长度,Wα表示注意力权重矩阵,bα表示对应的偏置项;
基于所述每个时刻的隐藏层输出状态以及对应的注意力权重获取所述情感词注意力特征;
所述情感词注意力特征为:





4.根据权利要求3所述的文本情感分析模型的优化方法,其特征在于,所述将所述第一词向量输入对抗Dropout的自适应尺度注意力模型,以获得自适应尺度注意力特征,包括:
将所述第一词向量输入卷积核大小不同的卷积层以得到不同尺度对应的尺度特征;
将每个所述尺度特征进行标量表示并进行拼接生成标量集合;
所述标量集合为:
S={l∈L|sl};



其中,l表示第l种卷积核,L表示卷积核的种类,sl表示所述尺度特征进行标量值,K表示尺度特征的维度,xl表示第l种卷积核进行卷积操作后得到的尺度特征;
根据所述标量集合计算所述尺度特征的注意力权重集合;
所述注意力权重集合为:
α=softmax(MLP(S));
其中,MLP表示多层感知机;
根据所述尺度特征和对应的注意力权重获取所述自适应尺度注意力特征;
所述自适应尺度注意力特征表示为:




其中,αl表示第l个尺度特征的注意力权重,表示第l个尺度特征的自适应尺度注意力特征,表示自适应尺度注意力特征的集合。


5.根据权利要求1所述的文本情感分析模型的优化方法,其特征在于,所述基于所述融合特征、所述对抗情感词注意力特征和所述对抗自适应尺度注意力特征并利用分类器获取总损失,包括:
基于所述融合特征利用Softmax分类器进行计算,得到分类损失,所述分类损失可更新所述对抗扰动;
所述分类损失为:



其中,yi为真实类别,为预测类别,N为样本总数量;
将所述对抗情感词注意力特征和所述对抗自适应尺度注意力特征分别利用分类器进行计算,分别得到情感词对抗损失和自适应尺度对抗损失;
所述情感词对抗损失为:



其中,r′αp表示所述对抗扰动,ε′AdD表示LSTM模型的对抗Dropout遮蔽,N为样本总数量,sn表示所述输入文本的词向量集合,yn表示所述输入文本对应的标签,θ表示LST...

【专利技术属性】
技术研发人员:任亮傅雨梅罗刚
申请(专利权)人:北京知因智慧科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1