面向个人推文的话题情感倾向性预测模型的建模方法及系统技术方案

技术编号：29584416 阅读：17 留言：0更新日期：2021-08-06 19:42

本发明专利技术提供了一种面向个人推文的话题情感倾向性预测模型的建模方法及系统，包括：步骤M1：根据情感词典将推文中的情感词去除，得到去除情感词的推文；步骤M2：在推文语料库中利用去除情感词的推文和情感标签输入BERT模型对BERT模型进行训练，得到训练后的BERT模型；步骤M3：利用训练后的BERT模型对去除情感词的推文以及话题词进行特征提取得到隐层向量；步骤M4：将话题词对应的隐层向量通过注意力机制进行整合，拼接到去除情感词的推文每个字符向量后面，得到新的词向量；步骤M5：新的词向量通过CNN分类器对情感类别进行概率分布预测；本发明专利技术提高对潜在话题情感预测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
面向个人推文的话题情感倾向性预测模型的建模方法及系统
本专利技术涉及数据挖掘
，具体地，涉及面向个人推文的话题情感倾向性预测模型的建模方法及系统。
技术介绍
随着人工智能与大数据的发展，预训练语言模型正在越来越多的用于自然语言处理中。BERT是谷歌在2018年提出的处理自然语言处理任务的预训练模型，编码器是由双向Transformer组成，解码器是对应任务中需要预测的信息，以解决之前预训练模型无法充分了解到单词上下文结构这一痛点。BERT和之前的预训练模型类似，主要分成预训练和微调两个阶段：在预训练阶段，BERT是在大量未标记的数据上进行无监督学习，通过MaskedLanguageModel(MLM)和NextSentencePrediction(NSP)两个新颖的方式进行预训练，捕捉上下文、短语和句子之间的关系，获得句子级别的表示以应用于不同类型的下游任务。BERT中的词嵌入层是由三个部分组成的：TokenEmbeddings、SegmentEmbeddings和PositionEmbeddings。TokenEmbeddings是token级别的，BERT通过WordPiece将word切成sub-word，并以[CLS]、[SEP]分别作为句子的开始token和结束token；SegmentEmbeddings主要用以区分句子对，EmbeddingA和EmbeddingB分别表示左右两个不同的句子，用于MLM的预训练任务和下游以两个句子为输入的任务；PositionEmbeddings描述每个to...

【技术保护点】
1.一种面向个人推文的话题情感倾向性预测模型的建模方法，其特征在于，包括：/n步骤M1：根据情感词典将推文中的情感词去除，得到去除情感词的推文；/n步骤M2：在推文语料库中利用去除情感词的推文和情感标签输入BERT模型对BERT模型进行训练，得到训练后的BERT模型；/n步骤M3：利用训练后的BERT模型对去除情感词的推文和话题词进行特征提取得到隐层向量；/n步骤M4：将话题词对应的隐层向量通过注意力机制进行整合，拼接到去除情感词的推文每个字符向量后面，得到新的词向量；/n步骤M5：新的词向量通过CNN分类器对情感类别进行概率分布预测；/n所述推文包括标有情感类别y

【技术特征摘要】
1.一种面向个人推文的话题情感倾向性预测模型的建模方法，其特征在于，包括：
步骤M1：根据情感词典将推文中的情感词去除，得到去除情感词的推文；
步骤M2：在推文语料库中利用去除情感词的推文和情感标签输入BERT模型对BERT模型进行训练，得到训练后的BERT模型；
步骤M3：利用训练后的BERT模型对去除情感词的推文和话题词进行特征提取得到隐层向量；
步骤M4：将话题词对应的隐层向量通过注意力机制进行整合，拼接到去除情感词的推文每个字符向量后面，得到新的词向量；
步骤M5：新的词向量通过CNN分类器对情感类别进行概率分布预测；
所述推文包括标有情感类别yi∈{负向，正向}以及话题词

2.根据权利要求1所述的面向个人推文的话题情感倾向性预测模型的建模方法，其特征在于，所述步骤M3包括：
话题词利用训练后的BERT模型得到对应的隐层

3.根据权利要求1所述的面向个人推文的话题情感倾向性预测模型的建模方法，其特征在于，所述步骤M4包括：
步骤M4.1：将隐层向量通过注意力机制进行整合；

其中，话题词注意力向量是基于H(i)的自注意力分布；T表示矩阵转置符号；i表示推文集中第i句推文；
α(i)＝softmax(tanh(H(i)W1)W2)(2)
其中，和都是注意力机制的权重；K表示词向量的维度，即BERT隐层维度；表示实数集；
步骤M4.2：将整合后的隐层向量添加到去除情感词的推文中每个字符向量的后面，得到新的词向量；

其中，j表示第j个token。

4.根据权利要求1所述的面向个人推文的话题情感倾向性预测模型的建模方法，其特征在于，所述步骤M5包括：
步骤M5.1：新的词向量输入CNN分类器通过与卷积核卷积，得到卷积层的隐层向量；

其中，w表示过滤器；表示卷积操作；是偏置；f是ReLU激活函数；
步骤M5.2：句子中所有长度为q的序列经过过滤器w生成一个特征映射：

其中，N表示隐层维度/词向量维度；
步骤M5.3：最大值池化选择最大值{c}作为c在过滤器w下得到的特征；
步骤M5.4：使用不同核大小的过滤器分别提取不同的特征，得到所有的特征；
步骤M5.5：全连接层将所有的特征映射连接起来，通过softmax激活函数得到对于情感类别yi∈{负向，正向}两个类别的预测概率分布。
...

【专利技术属性】
技术研发人员：计茜，刘功申，张全海，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人