【技术实现步骤摘要】
基于BERT模型的带权消极监督文本情感分析方法
[0001]本专利技术主要涉及到自然语言处理中的情感分析
,具体是一种基于BERT(Bidirectional Encoder Representations from Transformers)模型的带权消极监督文本情感分析技术。
技术介绍
[0002]自然语言处理(NLP)领域经过近十几年的发展,已经从传统的基于概率统计的方法转变为基于神经网络及深度学习的方法。早期基于概率统计的方法在分析字义、词义等比较简单的任务时表现很好,但应用场景变为句子甚至整个文档时,这种传统的方法就不能胜任。自然语言处理的研究也因此陷入了低迷状态。直到深度学习被提出并被广泛使用,才使得自然语言处理领域的任务有了更优秀的解决方案。
[0003]深度神经网络中的循环神经网络擅长处理时序数据的任务,尤其是NLP时序数据任务,而BackPropagation Through Time(BPTT,随时间反向传播)算法又为循环神经网络的训练提供了有效思路,使得循环神经网络一度成为NLP领域的有效 ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT模型的带权消极监督文本情感分析方法,其特征在于:它包括如下步骤:S1、收集文本情感分类数据集,对数据集进行清洗、分割预处理并建立训练集、测试集;S2、建立多任务学习情感分类模型,使用BERT作为文本编码器;S3、将分割得到的训练集输入到步骤S2建立的多任务学习情感分类模型中进行训练,多任务学习情感分类模型在经过训练集的训练后拥有文本情感分类能力;S4、将测试集输入到经步骤S3训练好的多任务学习情感分类模型中进行预测分类,并根据预测结果对模型进行评估。2.如权利要求1所述的基于BERT模型的带权消极监督文本情感分析方法,其特征在于:步骤S1中,在建立训练集、测试集的同时建立验证集。3.如权利要求1所述的基于BERT模型的带权消极监督文本情感分析方法,其特征在于:步骤S1中,对英文数据集进行清洗、分割预处理前需进行大小写转换操作。4.如权利要求1所述的基于BERT模型的带权消极监督文本情感分析方法,其特征在于:步骤S2中,建立多任务学习情感分类模型包括建立一个主任务和建立一个消极监督任务;所述主任务用来训练一个常规分类器,在使用BERT得到训练样本的表征向量后,将其输入一个全连接层得到模型的预测向量,再将预测向量的预测值与目标值进行比对并使用损失函数计算损失值。5.如权利要求4所述的基于BERT模型的带权消极监督文本情感分析方法,其特征在于:在主任务中,使用交叉熵函数作为损失函数,如式(1):其中,M为类别的数量;y
ic
为指示变量,若样本i的预测类别和真实类别相同该值为1,否则为0;p
ic
为样本i属于类别c的概率。6.如权利要求5所述的基于BERT模型的带权消极监督文本情感分析方法,其特征在于:步骤S2中,建立消极监督任务时,将消极监督的位置从编码器层移动到分类器层并让分类器层学习不同标签之间的差异信息,包括如下步骤:S21:为消极监督机制引入了权重W来区分该差异程度信息;S22:将分类器层预测向量l按批次输入到消极监督任务,遍历批次中的样本并找到所有...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。