一种基于遮蔽语言模型的两阶段情感迁移方法和系统技术方案

技术编号：29200172 阅读：22 留言：0更新日期：2021-07-10 00:34

本发明专利技术涉及一种基于遮蔽语言模型的两阶段情感迁移方法和系统。该方法包括：利用基于注意力机制的情感分类器和基于相对频率的融合方法，计算语料库中的所有词的得分，根据得分构建情感标记词的词库；利用情感标记词的词库对语料进行遮蔽处理，得到遮蔽语料；将遮蔽语料输入遮蔽语言模型中，利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空，得到迁移语料；将迁移语料输入预训练的情感分类器中，输出情感置信度分值，并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。本发明专利技术通过显式分割情感迁移任务，先找出句子中的情感信息进行遮蔽，再填入能代表目标情感信息的情感词，通过分解任务降低难度，能够达到更好的效果。能够达到更好的效果。能够达到更好的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于遮蔽语言模型的两阶段情感迁移方法和系统

[0001]本专利技术涉及深度学习与自然语言处理技术，具体涉及基于遮蔽语言模型的两阶段情感迁移方法和系统。

技术介绍

[0002]近年来，互联网信息技术高速发展，新闻网站、社交媒体每天都会产生海量的文本数据。文本数据包含着各种各样的风格，比如写作风格、主题风格、情感极性等。对文本风格进行迁移，即在不改变文本主体内容的前提下，重新组织文本让文本有着具体的风格属性，可以用于生成标签文本数据、更好地理解文本数据。情感迁移作为风格迁移的一个例子，目标在于转写文本的情感极性，能够运用于海量情感数据，如餐饮点评、商品评价，已经成为了一项极具实用价值、受到关注的研究课题。
[0003]情感迁移主要面临两个挑战，一是缺乏平行语料，二是情感信息和文本内容信息的杂糅。缺乏平行语料使得模型难以实现对海量数据的监督学习，信息杂糅使得情感和内容难以分割从而对情感信息进行替换。情感迁移逻辑上分为两个步骤，一是确定文本中的情感信息部分，二是将情感信息替换为期望的带有目标情感的文本表达。现有方法对这两个步骤进行统一建模，即希望模型能够在识别情感信息的同时进行替换。具体来说，现有方法通常使用序列到序列的建模方法，将文本先编码为一个特征向量，通过施加不同的限制来让该特征向量只包含内容信息，在此基础上将情感属性也编码为一个特征向量，两个向量拼接后执行解码过程得到文本。由于缺乏平行语料，上述模型过程通常使用无监督学习完成，导致模型难以学习到较好的特征编码方式，难以生成令人满意的文本。
专利技术

【技术保护点】

【技术特征摘要】
1.一种基于遮蔽语言模型的两阶段情感迁移方法，其特征在于，包括以下步骤：利用基于注意力机制的情感分类器和基于相对频率的融合方法，计算语料库中的所有词的得分，根据得分构建情感标记词的词库；利用情感标记词的词库对语料进行遮蔽处理，得到遮蔽语料；将遮蔽语料输入遮蔽语言模型中，利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空，得到迁移语料；将迁移语料输入预训练的情感分类器中，输出情感置信度分值，并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。2.根据权利要求1所述的方法，其特征在于，所述基于注意力机制的情感分类器采用以下方法计算情感得分：1)使用word2vec将句子转化为词向量表征形式，使用双向长短时记忆网络学习输入句子中每个词的上下文信息，得到上下文表示；2)使用注意力机制得到每个词的位置特征的重要性权重；3)根据重要性权重得到加权的特征表示，将加权的特征表示输入到输出层得到分类输出；4)使用语料，预训练该情感分类器；5)训练完毕后，将句子输入情感分类器，抽取对应的注意力权重，作为情感得分。3.根据权利要求2所述方法，其特征在于，步骤1)所述的上下文表示为：H＝(h1，h2，...，h
N
)＝BiLSTM(t1，t2，...，t
N
)其中h
i
表示第i个词位的特征表示，t
i
表示第i个词位对应的输入词；步骤2)所述的重要性权重为：α＝soffmax(w
·
tanh(WH
T
))其中w，W表示可学习的权重，tanh表示激活函数，soffmax表示归一化函数；步骤3)所述的加权的特征表示为：c＝α
·
Hy＝soffmax(W
′
c)其中W
′
表示可学习的权重，soffmax表示归一化函数；步骤5)所述的注意力权重为α，情感得分为p。4.根据权利要求3所述的方法，其特征在于，给定情感极性a对应的语料D
a
，计算词组u的出现频率count(u，D
a
)，和在其它情感极性a
′
上出现的频率，进而计算相对频率：其中λ表示平滑因子，A表示所有情感极性，D
a
′
表示情感极性a
′
对应语料D
a
′
的频率count(u，D
a
′
)；进而，将情感得分和相对频率相乘得到最终得分：s(u，a)＝s
c
(u，a)*p；最终得分超过阈值γ，则加入情感标记词库。5.根据权利要求1所述的方法，其特征在于，利用情感标记词库得到遮蔽词集合，将句子中的遮蔽词使...

【专利技术属性】
技术研发人员：虎嵩林，张滔，伍星，臧良俊，韩冀中，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人