面向个人推文的话题情感倾向性预测模型的建模方法及系统技术方案

技术编号:29584416 阅读:17 留言:0更新日期:2021-08-06 19:42
本发明专利技术提供了一种面向个人推文的话题情感倾向性预测模型的建模方法及系统,包括:步骤M1:根据情感词典将推文中的情感词去除,得到去除情感词的推文;步骤M2:在推文语料库中利用去除情感词的推文和情感标签输入BERT模型对BERT模型进行训练,得到训练后的BERT模型;步骤M3:利用训练后的BERT模型对去除情感词的推文以及话题词进行特征提取得到隐层向量;步骤M4:将话题词对应的隐层向量通过注意力机制进行整合,拼接到去除情感词的推文每个字符向量后面,得到新的词向量;步骤M5:新的词向量通过CNN分类器对情感类别进行概率分布预测;本发明专利技术提高对潜在话题情感预测的准确率。

【技术实现步骤摘要】
面向个人推文的话题情感倾向性预测模型的建模方法及系统
本专利技术涉及数据挖掘
,具体地,涉及面向个人推文的话题情感倾向性预测模型的建模方法及系统。
技术介绍
随着人工智能与大数据的发展,预训练语言模型正在越来越多的用于自然语言处理中。BERT是谷歌在2018年提出的处理自然语言处理任务的预训练模型,编码器是由双向Transformer组成,解码器是对应任务中需要预测的信息,以解决之前预训练模型无法充分了解到单词上下文结构这一痛点。BERT和之前的预训练模型类似,主要分成预训练和微调两个阶段:在预训练阶段,BERT是在大量未标记的数据上进行无监督学习,通过MaskedLanguageModel(MLM)和NextSentencePrediction(NSP)两个新颖的方式进行预训练,捕捉上下文、短语和句子之间的关系,获得句子级别的表示以应用于不同类型的下游任务。BERT中的词嵌入层是由三个部分组成的:TokenEmbeddings、SegmentEmbeddings和PositionEmbeddings。TokenEmbeddings是token级别的,BERT通过WordPiece将word切成sub-word,并以[CLS]、[SEP]分别作为句子的开始token和结束token;SegmentEmbeddings主要用以区分句子对,EmbeddingA和EmbeddingB分别表示左右两个不同的句子,用于MLM的预训练任务和下游以两个句子为输入的任务;PositionEmbeddings描述每个token的位置,是学习得到的值。这三个不同词嵌入相加所得即是BERT最终输入的词嵌入。由于预训练的模型已经完成了句子和句子对的向量表示,如图1所示,在微调过程中,根据不同的下游任务,可以将具体的输入输出适配到BERT中,在核心模型中添加一个层,采用端到端的方式去微调模型参数。在单句分类任务中,BERT的微调方法是在Transformer的输出加一个分类层:根据[CLS]标志生成一组特征向量,并通过一层全连接进行微调。损失函数根据任务类型自行设计,例如多分类的softmax或者二分类的sigmoid。本专利技术提出的用户层级模型是利用个人过去的推文预测他/她对某个潜在话题的情感倾向,是第一个在推文情感分析中加入用户信息,构建个人和不同话题情感倾向之间的关系,而非对单句推文进行基于话题词的情感分类。一项用于对单句同时提取话题词和对话题词的情感分类的方案为INABSA,如图2所示;该模型对句子中每个单词打标,将话题词和情感词的标注合二为一。在模型中,BoundaryGuidance(BG)、SentimentConsistency(SC)和Opinion-EnhancedTargetWordDetection(OE)是三个重要的模块,加上两层LSTM,深度挖掘情感词和话题词之间的关系。但这种结构并不能解决带有用户信息的推文,并对个人对某话题的情感倾向做出预测。专利文献CN103793503A(申请号:201410035384.0)公开了一种基于web文本的观点挖掘与分类的方法,属于数据挖掘
本专利技术通过网络爬虫、观点挖掘、信息抽取、机器学习等技术从互联网中获取、发现新的话题,并持续跟踪和关注该话题,通过对得到话题的情感倾向性及真伪倾向性的综合分析。本专利技术能快速有效地在大数据时代背景下,通过从中挖掘热点主题倾向性走势,分析影响因子,为减少舆论导向对公众的负面影响,为互联网管理的决策提供参考。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种面向个人推文的话题情感倾向性预测模型的建模方法及系统。根据本专利技术提供的一种面向个人推文的话题情感倾向性预测模型的建模方法,包括:步骤M1:根据情感词典将推文中的情感词去除,得到去除情感词的推文;步骤M2:在推文语料库中利用去除情感词的推文和情感标签输入BERT模型对BERT模型进行训练,得到训练后的BERT模型;步骤M3:利用训练后的BERT模型对去除情感词的推文和话题词进行特征提取得到隐层向量;步骤M4:将话题词对应的隐层向量通过注意力机制进行整合,拼接到去除情感词的推文每个字符向量后面,得到新的词向量;步骤M5:新的词向量通过CNN分类器对情感类别进行概率分布预测;所述推文包括标有情感类别yi∈{负向,正向}以及话题词优选地,所述步骤M3包括:话题词利用训练后的BERT模型得到对应的隐层优选地,所述步骤M4包括:步骤M4.1:将隐层向量通过注意力机制进行整合;其中,话题词注意力向量是基于H(i)的自注意力分布;T表示矩阵转置符号;i表示推文集中第i句推文;α(i)=softmax(tanh(H(i)W1)W2)(2)其中,和都是注意力机制的权重;K表示词向量的维度,即BERT隐层维度;表示实数集;步骤M4.2:将整合后的隐层向量添加到去除情感词的推文中每个字符向量的后面,得到新的词向量;其中,j表示第j个token。优选地,所述步骤M5包括:步骤M5.1:新的词向量输入CNN分类器通过与卷积核卷积,得到卷积层的隐层向量;其中,w表示过滤器;°表示卷积操作;是偏置;f是ReLU激活函数;步骤M5.2:句子中所有长度为q的序列经过过滤器w生成一个特征映射:其中,N表示隐层维度/词向量维度;步骤M5.3:最大值池化选择最大值作为c在过滤器w下得到的特征;步骤M5.4:使用不同核大小的过滤器分别提取不同的特征,得到所有的特征;步骤M5.5:全连接层将所有的特征映射连接起来,通过softmax激活函数得到对于情感类别yi∈{负向,正向}两个类别的预测概率分布。根据本专利技术提供的一种面向个人推文的话题情感倾向性预测模型的建模系统,包括:模块S1:根据情感词典将推文中的情感词去除,得到去除情感词的推文;模块S2:在推文语料库中利用去除情感词的推文和情感标签输入BERT模型对BERT模型进行训练,得到训练后的BERT模型;模块S3:利用训练后的BERT模型对去除情感词的推文和话题词进行特征提取得到隐层向量;模块S4:将话题词对应的隐层向量通过注意力机制进行整合,拼接到去除情感词的推文每个字符向量后面,得到新的词向量;模块S5:新的词向量通过CNN分类器对情感类别进行概率分布预测;所述推文包括标有情感类别yi∈{负向,正向}以及话题词优选地,所述模块S3包括:话题词利用训练后的BERT模型得到对应的隐层优选地,所述模块S4包括:模块S4.1:将隐层向量通过注意力机制进行整合;其中,话题词注意力向量是基于H(i)的自注意力分布;T表示矩阵转置符号;i表示推文集中第i句推文;α(i)=softmax(tanh(H(i)W1)W2)(2)其中,和都是注本文档来自技高网
...

【技术保护点】
1.一种面向个人推文的话题情感倾向性预测模型的建模方法,其特征在于,包括:/n步骤M1:根据情感词典将推文中的情感词去除,得到去除情感词的推文;/n步骤M2:在推文语料库中利用去除情感词的推文和情感标签输入BERT模型对BERT模型进行训练,得到训练后的BERT模型;/n步骤M3:利用训练后的BERT模型对去除情感词的推文和话题词进行特征提取得到隐层向量;/n步骤M4:将话题词对应的隐层向量通过注意力机制进行整合,拼接到去除情感词的推文每个字符向量后面,得到新的词向量;/n步骤M5:新的词向量通过CNN分类器对情感类别进行概率分布预测;/n所述推文包括标有情感类别y

【技术特征摘要】
1.一种面向个人推文的话题情感倾向性预测模型的建模方法,其特征在于,包括:
步骤M1:根据情感词典将推文中的情感词去除,得到去除情感词的推文;
步骤M2:在推文语料库中利用去除情感词的推文和情感标签输入BERT模型对BERT模型进行训练,得到训练后的BERT模型;
步骤M3:利用训练后的BERT模型对去除情感词的推文和话题词进行特征提取得到隐层向量;
步骤M4:将话题词对应的隐层向量通过注意力机制进行整合,拼接到去除情感词的推文每个字符向量后面,得到新的词向量;
步骤M5:新的词向量通过CNN分类器对情感类别进行概率分布预测;
所述推文包括标有情感类别yi∈{负向,正向}以及话题词


2.根据权利要求1所述的面向个人推文的话题情感倾向性预测模型的建模方法,其特征在于,所述步骤M3包括:
话题词利用训练后的BERT模型得到对应的隐层


3.根据权利要求1所述的面向个人推文的话题情感倾向性预测模型的建模方法,其特征在于,所述步骤M4包括:
步骤M4.1:将隐层向量通过注意力机制进行整合;



其中,话题词注意力向量是基于H(i)的自注意力分布;T表示矩阵转置符号;i表示推文集中第i句推文;
α(i)=softmax(tanh(H(i)W1)W2)(2)
其中,和都是注意力机制的权重;K表示词向量的维度,即BERT隐层维度;表示实数集;
步骤M4.2:将整合后的隐层向量添加到去除情感词的推文中每个字符向量的后面,得到新的词向量;



其中,j表示第j个token。


4.根据权利要求1所述的面向个人推文的话题情感倾向性预测模型的建模方法,其特征在于,所述步骤M5包括:
步骤M5.1:新的词向量输入CNN分类器通过与卷积核卷积,得到卷积层的隐层向量;



其中,w表示过滤器;表示卷积操作;是偏置;f是ReLU激活函数;
步骤M5.2:句子中所有长度为q的序列经过过滤器w生成一个特征映射:



其中,N表示隐层维度/词向量维度;
步骤M5.3:最大值池化选择最大值{c}作为c在过滤器w下得到的特征;
步骤M5.4:使用不同核大小的过滤器分别提取不同的特征,得到所有的特征;
步骤M5.5:全连接层将所有的特征映射连接起来,通过softmax激活函数得到对于情感类别yi∈{负向,正向}两个类别的预测概率分布。
...

【专利技术属性】
技术研发人员:计茜刘功申张全海
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1