一种基于遮蔽语言模型的两阶段情感迁移方法和系统技术方案

技术编号:29200172 阅读:22 留言:0更新日期:2021-07-10 00:34
本发明专利技术涉及一种基于遮蔽语言模型的两阶段情感迁移方法和系统。该方法包括:利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;利用情感标记词的词库对语料进行遮蔽处理,得到遮蔽语料;将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空,得到迁移语料;将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。本发明专利技术通过显式分割情感迁移任务,先找出句子中的情感信息进行遮蔽,再填入能代表目标情感信息的情感词,通过分解任务降低难度,能够达到更好的效果。能够达到更好的效果。能够达到更好的效果。

【技术实现步骤摘要】
一种基于遮蔽语言模型的两阶段情感迁移方法和系统


[0001]本专利技术涉及深度学习与自然语言处理技术,具体涉及基于遮蔽语言模型的两阶段情感迁移方法和系统。

技术介绍

[0002]近年来,互联网信息技术高速发展,新闻网站、社交媒体每天都会产生海量的文本数据。文本数据包含着各种各样的风格,比如写作风格、主题风格、情感极性等。对文本风格进行迁移,即在不改变文本主体内容的前提下,重新组织文本让文本有着具体的风格属性,可以用于生成标签文本数据、更好地理解文本数据。情感迁移作为风格迁移的一个例子,目标在于转写文本的情感极性,能够运用于海量情感数据,如餐饮点评、商品评价,已经成为了一项极具实用价值、受到关注的研究课题。
[0003]情感迁移主要面临两个挑战,一是缺乏平行语料,二是情感信息和文本内容信息的杂糅。缺乏平行语料使得模型难以实现对海量数据的监督学习,信息杂糅使得情感和内容难以分割从而对情感信息进行替换。情感迁移逻辑上分为两个步骤,一是确定文本中的情感信息部分,二是将情感信息替换为期望的带有目标情感的文本表达。现有方法对这两个步骤进行统一建模,即希望模型能够在识别情感信息的同时进行替换。具体来说,现有方法通常使用序列到序列的建模方法,将文本先编码为一个特征向量,通过施加不同的限制来让该特征向量只包含内容信息,在此基础上将情感属性也编码为一个特征向量,两个向量拼接后执行解码过程得到文本。由于缺乏平行语料,上述模型过程通常使用无监督学习完成,导致模型难以学习到较好的特征编码方式,难以生成令人满意的文本。
专利技术内容
[0004]针对上述技术问题,本专利技术提出一种基于遮蔽语言模型的两阶段情感迁移方法和系统,利用先遮蔽再填空的方式,借助预训练的遮蔽语言模型,来解决信息杂糅、平行语料缺乏的问题。
[0005]为了解决上述技术问题,本专利技术的技术方案如下:
[0006]一种基于遮蔽语言模型的两阶段情感迁移方法,包括如下步骤:
[0007]利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;
[0008]利用情感标记词的词库,对语料进行遮蔽处理,得到遮蔽语料;
[0009]将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空,得到迁移语料;
[0010]将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。
[0011]进一步地,先找出不同情感极性所对应的情感标记词,构成每个情感极性的情感标记词库,包括:
[0012]预训练基于注意力机制的情感分类器,包括:使用word2vec在大规模非标注语料上得到传统词向量,把词向量表征的句子输入到双向长短时记忆网络(BiLSTM)来学习句子层级的上下文信息表示,对该表示使用注意力机制来提取不同词的位置特征的重要性权重,使用权重和上下文信息得到加权的文本信息表示,输入到softmax层进行类别概率预测;
[0013]使用情感分类器对语料中的所有词组进行打分,即把词组输入到情感分类器中,将softmax层输出的类别置信度当做该词组的情感得分;
[0014]统计语料中所有词组在不同情感极性语料中的频率,进而计算相对频率;
[0015]用情感得分和相对频率相乘,作为词组的最终得分,最终得分高于设定阈值的词组加入到情感标记词库中。
[0016]进一步地,根据情感标记词库,对语料中所有句子的情感标记词部分进行遮蔽,即将对应部分替换为特殊标记[MASK],遮蔽的部分和未遮蔽的部分一起构成遮蔽语料。
[0017]进一步地,使用遮蔽语言模型对语料中被遮蔽的部分进行填空,达到情感迁移的目的,包括:
[0018]使用在大规模维基百科语料库上预训练的遮蔽语言模型,在遮蔽语料上进行训练,目标是根据句子中未遮蔽的部分来推测被遮蔽部分。该训练步骤是为了消除遮蔽语言模型的预训练维基百科数据和当前情感数据之间存在的分布偏差,让遮蔽语言模型更熟悉情感语料。
[0019]进一步地,由于遮蔽语言模型是在无监督环境下训练的,而情感迁移需要迁移句子满足对应情感极性,于是将标签信息加入到遮蔽语言模型的输入中,使得遮蔽语言模型的推测能够满足情感属性的要求。
[0020]进一步地,为了增加迁移句子的情感极性迁移准确度,引入预训练判别器辅助训练,根据目标情感类别标签来对迁移语料中的句子进行监督判别,计算迁移准确率。
[0021]进一步地,由于文本生成过程中的离散采样,导致梯度无法从预训练判别器回传到遮蔽语言模型。引入软采样的方法解决该问题,即在文本生成中不是使用argmax操作来得到词表中最大可能性对应的索引来在词向量表中取词,而是使用输入到argmax的softmax打分向量来乘以词向量矩阵,得到加权的词向量表示。该过程没有离散采样所导致的不可导问题,使得梯度能够回传,即能够利用预训练判别器的监督信号来优化遮蔽语言模型。
[0022]基于同一专利技术构思,本专利技术还提供一种基于遮蔽语言模型的两阶段情感迁移系统,其包括:
[0023]遮蔽模块,负责利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;利用情感标记词的词库对语料进行遮蔽处理,得到遮蔽语料;
[0024]填空模块,负责将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型,在遮蔽语料的遮蔽位置进行填空,得到迁移语料;将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。
[0025]本专利技术的有益效果在于:
[0026]针对情感风格迁移中的两个问题:一是,信息杂糅导致情感信息和内容信息难以
分宜,二是,缺乏平行语料来进行监督学习;提出了基于遮蔽语言模型的两阶段情感迁移方法,具体为:显式地将情感迁移变为两阶段建模,先利用基于预训练基于注意力的情感分类器打分与基于相对频率的融合方法,找出文本中情感信息所对应的情感词;遮蔽掉这些词,在遮蔽语料上使用遮蔽语言模型进行填空。为了保证填入词能够使迁移句子满足目标情感极性,引入预训练判别器辅助训练,约束遮蔽语言模型生成与目标情感极性一致的句子。
[0027]本专利技术通过显式分割情感迁移任务,先找出句子中的情感信息进行遮蔽,再填入能代表目标情感信息的情感词,相比于同时建模情感信息和内容信息的方法,本专利技术通过分解任务降低难度,达到更好的效果。本专利技术引入预训练遮蔽语言模型来填入情感信息,利用预训练带来的先验知识,能够实现对句子特征的高效编码,有效地缓解了平行语料缺乏所导致的模型训练问题。
附图说明
[0028]图1为本专利技术实施例提供的基于遮蔽语言模型的两阶段情感迁移方法的流程图。
具体实施方式
[0029]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施案例并结合附图,对本专利技术做进一步详细说明。...

【技术保护点】

【技术特征摘要】
1.一种基于遮蔽语言模型的两阶段情感迁移方法,其特征在于,包括以下步骤:利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;利用情感标记词的词库对语料进行遮蔽处理,得到遮蔽语料;将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空,得到迁移语料;将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。2.根据权利要求1所述的方法,其特征在于,所述基于注意力机制的情感分类器采用以下方法计算情感得分:1)使用word2vec将句子转化为词向量表征形式,使用双向长短时记忆网络学习输入句子中每个词的上下文信息,得到上下文表示;2)使用注意力机制得到每个词的位置特征的重要性权重;3)根据重要性权重得到加权的特征表示,将加权的特征表示输入到输出层得到分类输出;4)使用语料,预训练该情感分类器;5)训练完毕后,将句子输入情感分类器,抽取对应的注意力权重,作为情感得分。3.根据权利要求2所述方法,其特征在于,步骤1)所述的上下文表示为:H=(h1,h2,...,h
N
)=BiLSTM(t1,t2,...,t
N
)其中h
i
表示第i个词位的特征表示,t
i
表示第i个词位对应的输入词;步骤2)所述的重要性权重为:α=soffmax(w
·
tanh(WH
T
))其中w,W表示可学习的权重,tanh表示激活函数,soffmax表示归一化函数;步骤3)所述的加权的特征表示为:c=α
·
Hy=soffmax(W

c)其中W

表示可学习的权重,soffmax表示归一化函数;步骤5)所述的注意力权重为α,情感得分为p。4.根据权利要求3所述的方法,其特征在于,给定情感极性a对应的语料D
a
,计算词组u的出现频率count(u,D
a
),和在其它情感极性a

上出现的频率,进而计算相对频率:其中λ表示平滑因子,A表示所有情感极性,D
a

表示情感极性a

对应语料D
a

的频率count(u,D
a

);进而,将情感得分和相对频率相乘得到最终得分:s(u,a)=s
c
(u,a)*p;最终得分超过阈值γ,则加入情感标记词库。5.根据权利要求1所述的方法,其特征在于,利用情感标记词库得到遮蔽词集合,将句子中的遮蔽词使...

【专利技术属性】
技术研发人员:虎嵩林张滔伍星臧良俊韩冀中
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1