The invention is applicable to the technical field of natural language processing, and provides a training method, device, equipment and medium of cross-domain text emotion classification model. The method includes: after initial training of cross-domain text emotion classification model based on source domain sample set and target domain sample set, sample set of target domain is aggregated according to the trained cross-domain text emotion classification model. According to the membership degree, the emotional ambiguity value of each target sample is calculated by the formula of the fuzzy value. The target sample whose emotional ambiguity value is lower than the fuzzy threshold and the corresponding emotional prediction label of the target sample are added to the source domain. In the domain sample set, the cross-domain text emotion classification model is trained again according to the source domain sample set and the target domain sample set, so as to improve the accuracy of the cross-domain text emotion classification model.
【技术实现步骤摘要】
跨领域文本情感分类模型的训练方法、装置、设备及介质
本专利技术属于自然语言处理
,尤其涉及一种跨领域文本情感分类模型的训练方法、装置、设备及介质。
技术介绍
文本情感分析是领域敏感的,由于不同领域的评论有不同的词分布,例如,“干净”一词在酒店评论中很常见,然而在书籍评论中却很少使用,所以,仅使用带标签的书籍评论数据训练的情感分类器对无标签的酒店评论数据进行情感倾向预测,则无法在酒店评论中获得令人满意的结果。领域自适应算法旨在利用相关领域(源域)大量带标签样本来改进目标域样本的预测效果。领域对抗神经网络(DomainAdversarialNeuralNetwork,简称DANN)使用领域分类器和梯度反转层进行无监督跨领域情感分类,并取得了较好的结果。DANN思想来源于生成对抗神经网络,不同之处在于生成对抗网络是用来生成数据的,而领域分类器使用梯度反转层来实现对抗训练,其目标是使领域分类器无法识别领域之间的差异,从而获得领域不变的特征表示,当获得了领域不变的特征表示后,任何监督学习的方法都可以用来在源域带标签样本上训练分类器。对于跨领域情感分类来说领域不变的特征和样本本身的特性都是重要的,然而,通过DANN、双转移深层神经网络(Bi-transferringDeepNeuralNetworks,简称BTDNNs)或者最大平均差异(MaximumMeanDiscrepancy,简称MMD)等用来约束源域和目标域之间分布一致性的方法,更多地关注领域不变特征而忽略样本本身的特性,造成情感分类不准确的问题。此外,Bruzzone和Habrard等提出了迭代领域自 ...
【技术保护点】
1.一种跨领域文本情感分类模型的训练方法,其特征在于,所述方法包括下述步骤:根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述目标领域样本集中的每个目标样本为无标签样本;根据训练好的所述跨领域文本情感分类模型对所述目标领域样本集进行情感分类,得到所述每个目标样本对应的情感预测标签和所述每个目标样本属于预设的每个情感类别的隶属度;根据所述隶属度,通过预设的模糊值公式计算所述每个目标样本的情感模糊值,得到对应的情感模糊值集;将所述情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和所述目标样本对应的情感预测标签添加到所述源领域样本集中,以对所述源领域样本集进行扩充;根据扩充后的所述源领域样本集和所述目标领域样本集对所述跨领域文本情感分类模型进行再次训练,以完成对所述跨领域文本情感分类模型的训练。
【技术特征摘要】
1.一种跨领域文本情感分类模型的训练方法,其特征在于,所述方法包括下述步骤:根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述目标领域样本集中的每个目标样本为无标签样本;根据训练好的所述跨领域文本情感分类模型对所述目标领域样本集进行情感分类,得到所述每个目标样本对应的情感预测标签和所述每个目标样本属于预设的每个情感类别的隶属度;根据所述隶属度,通过预设的模糊值公式计算所述每个目标样本的情感模糊值,得到对应的情感模糊值集;将所述情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和所述目标样本对应的情感预测标签添加到所述源领域样本集中,以对所述源领域样本集进行扩充;根据扩充后的所述源领域样本集和所述目标领域样本集对所述跨领域文本情感分类模型进行再次训练,以完成对所述跨领域文本情感分类模型的训练。2.如权利要求1所述的方法,其特征在于,所述跨领域文本情感分类模型由自动编码器、领域分类器以及情感分类器组成。3.如权利要求1和2所述的方法,其特征在于,根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练的步骤,包括:根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述模型代价损失函数lALL为lALL=lSC+αlAE+βlDC,其中,lSC为预设的所述情感分类器的代价损失函数,lAE为预设的所述自动编码器的代价损失函数,α为预设的所述自动编码器的损失权衡参数,lDC为预设的所述领域分类器的代价损失函数,β为预设的所述领域分类器的损失权衡参数。4.如权利要求3所述的方法,其特征在于,根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练的步骤,包括:根据所述自动编码器的代价损失函数和所述源领域样本集对所述自动编码器进行训练,根据所述领域分类器的代价损失函数、所述源领域样本集以及所述目标领域样本集对所述领域分类器进行训练,根据所述情感分类器的代价损失函数和所述源领域样本集对所述情感分类器进行训练。5.一种跨领域文本情感分类模型的训练装置,其特征在于,所述装置包括:模型初次训练单元,用于根据预设的源领域样本集和预设的目标领域样本集对预先构建...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。