当前位置: 首页 > 专利查询>深圳大学专利>正文

跨领域文本情感分类模型的训练方法、装置、设备及介质制造方法及图纸

技术编号:20285264 阅读:25 留言:0更新日期:2019-02-10 17:50
本发明专利技术适用自然语言处理技术领域,提供了一种跨领域文本情感分类模型的训练方法、装置、设备及介质,该方法包括:在根据源领域样本集和目标领域样本集对跨领域文本情感分类模型进行初次训练后,根据训练好的跨领域文本情感分类模型对目标领域样本集进行情感分类,得到目标领域样本集中每个目标样本对应的情感预测标签和每个目标样本属于每个情感类别的隶属度,根据隶属度,通过模糊值公式计算每个目标样本的情感模糊值,将情感模糊值低于模糊阈值的目标样本和该目标样本对应的情感预测标签添加到源领域样本集中,根据该源领域样本集和目标领域样本集对跨领域文本情感分类模型进行再次训练,从而提高跨领域文本情感分类模型的情感分类准确率。

Training Method, Device, Equipment and Media of Cross-Domain Text Emotional Classification Model

The invention is applicable to the technical field of natural language processing, and provides a training method, device, equipment and medium of cross-domain text emotion classification model. The method includes: after initial training of cross-domain text emotion classification model based on source domain sample set and target domain sample set, sample set of target domain is aggregated according to the trained cross-domain text emotion classification model. According to the membership degree, the emotional ambiguity value of each target sample is calculated by the formula of the fuzzy value. The target sample whose emotional ambiguity value is lower than the fuzzy threshold and the corresponding emotional prediction label of the target sample are added to the source domain. In the domain sample set, the cross-domain text emotion classification model is trained again according to the source domain sample set and the target domain sample set, so as to improve the accuracy of the cross-domain text emotion classification model.

【技术实现步骤摘要】
跨领域文本情感分类模型的训练方法、装置、设备及介质
本专利技术属于自然语言处理
,尤其涉及一种跨领域文本情感分类模型的训练方法、装置、设备及介质。
技术介绍
文本情感分析是领域敏感的,由于不同领域的评论有不同的词分布,例如,“干净”一词在酒店评论中很常见,然而在书籍评论中却很少使用,所以,仅使用带标签的书籍评论数据训练的情感分类器对无标签的酒店评论数据进行情感倾向预测,则无法在酒店评论中获得令人满意的结果。领域自适应算法旨在利用相关领域(源域)大量带标签样本来改进目标域样本的预测效果。领域对抗神经网络(DomainAdversarialNeuralNetwork,简称DANN)使用领域分类器和梯度反转层进行无监督跨领域情感分类,并取得了较好的结果。DANN思想来源于生成对抗神经网络,不同之处在于生成对抗网络是用来生成数据的,而领域分类器使用梯度反转层来实现对抗训练,其目标是使领域分类器无法识别领域之间的差异,从而获得领域不变的特征表示,当获得了领域不变的特征表示后,任何监督学习的方法都可以用来在源域带标签样本上训练分类器。对于跨领域情感分类来说领域不变的特征和样本本身的特性都是重要的,然而,通过DANN、双转移深层神经网络(Bi-transferringDeepNeuralNetworks,简称BTDNNs)或者最大平均差异(MaximumMeanDiscrepancy,简称MMD)等用来约束源域和目标域之间分布一致性的方法,更多地关注领域不变特征而忽略样本本身的特性,造成情感分类不准确的问题。此外,Bruzzone和Habrard等提出了迭代领域自适应图像处理方法,每次迭代使用类别均匀的目标域样本及其预测标签来替换相同数量的源域样本,不断进行训练以提高目标域图像分类准确率,在跨领域情感分类任务上尚未发现这种迭代训练的做法。
技术实现思路
本专利技术的目的在于提供一种跨领域文本情感分类模型的训练方法、装置、设备及介质,旨在解决由于现有技术无法提供一种有效的跨领域文本情感分类模型的训练方法,导致跨领域文本情感分类模型的情感分类不准确的问题。一方面,本专利技术提供了一种跨领域文本情感分类模型的训练方法,所述方法包括下述步骤:根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述目标领域样本集中的每个目标样本为无标签样本;根据训练好的所述跨领域文本情感分类模型对所述目标领域样本集进行情感分类,得到所述每个目标样本对应的情感预测标签和所述每个目标样本属于预设的每个情感类别的隶属度;根据所述隶属度,通过预设的模糊值公式计算所述每个目标样本的情感模糊值,得到对应的情感模糊值集;将所述情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和所述目标样本对应的情感预测标签添加到所述源领域样本集中,以对所述源领域样本集进行扩充;根据扩充后的所述源领域样本集和所述目标领域样本集对所述跨领域文本情感分类模型进行再次训练,以完成对所述跨领域文本情感分类模型的训练。优选地,所述跨领域文本情感分类模型由自动编码器、领域分类器以及情感分类器组成。优选地,根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练的步骤,包括:根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述模型代价损失函数lALL为lALL=lSC+αlAE+βlDC,其中,lSC为预设的所述情感分类器的代价损失函数,lAE为预设的所述自动编码器的代价损失函数,α为预设的所述自动编码器的损失权衡参数,lDC为预设的所述领域分类器的代价损失函数,β为预设的所述领域分类器的损失权衡参数。进一步优选地,根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练的步骤,包括:根据所述自动编码器的代价损失函数和所述源领域样本集对所述自动编码器进行训练,根据所述领域分类器的代价损失函数、所述源领域样本集以及所述目标领域样本集对所述领域分类器进行训练,根据所述情感分类器的代价损失函数和所述源领域样本集对所述情感分类器进行训练。另一方面,本专利技术提供了一种跨领域文本情感分类模型的训练装置,所述装置包括:模型初次训练单元,用于根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述目标领域样本集中的每个目标样本为无标签样本;情感分类单元,用于根据训练好的所述跨领域文本情感分类模型对所述目标领域样本集进行情感分类,得到所述每个目标样本对应的情感预测标签和所述每个目标样本属于预设的每个情感类别的隶属度;模糊值计算单元,用于根据所述隶属度,通过预设的模糊值公式计算所述每个目标样本的情感模糊值,得到对应的情感模糊值集;源样本集扩充单元,用于将所述情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和所述目标样本对应的情感预测标签添加到所述源领域样本集中,以对所述源领域样本集进行扩充;以及模型再次训练单元,用于根据扩充后的所述源领域样本集和所述目标领域样本集对所述跨领域文本情感分类模型进行再次训练,以完成对所述跨领域文本情感分类模型的训练。优选地,所述跨领域文本情感分类模型由自动编码器、领域分类器以及情感分类器组成。优选地,所述模型初次训练单元包括:模型训练子单元,用于根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述模型代价损失函数lALL为lALL=lSC+αlAE+βlDC,其中,lSC为预设的所述情感分类器的代价损失函数,lAE为预设的所述自动编码器的代价损失函数,α为预设的所述自动编码器的损失权衡参数,lDC为预设的所述领域分类器的代价损失函数,β为预设的所述领域分类器的损失权衡参数。进一步优选地,所述模型训练子单元包括:分类器训练单元,用于根据所述自动编码器的代价损失函数和所述源领域样本集对所述自动编码器进行训练,根据所述领域分类器的代价损失函数、所述源领域样本集以及所述目标领域样本集对所述领域分类器进行训练,根据所述情感分类器的代价损失函数和所述源领域样本集对所述情感分类器进行训练。另一方面,本专利技术还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述跨领域文本情感分类模型的训练方法所述的步骤。另一方面,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述跨领域文本情感分类模型的训练方法所述的步骤。本专利技术在根据源领域样本集和目标领域样本集对跨领域文本情感分类模型进行初次训练后,根据训练好的跨领域文本情感分类模型对目标领域样本集进行情感分类,得到目标领域样本集中每个目标样本对应的情感预测标签和每个目标样本属于每个情感类别的隶属度,根据隶属度,通过模糊值公式计算每个目标样本的情感模糊值,将情感模糊值低于模糊阈值的目标样本和该目标样本对应的情感预测标签添加到源领域样本集中,根据该源领域样本集和目标领域样本集对跨领域文本情感分类模型进本文档来自技高网
...

【技术保护点】
1.一种跨领域文本情感分类模型的训练方法,其特征在于,所述方法包括下述步骤:根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述目标领域样本集中的每个目标样本为无标签样本;根据训练好的所述跨领域文本情感分类模型对所述目标领域样本集进行情感分类,得到所述每个目标样本对应的情感预测标签和所述每个目标样本属于预设的每个情感类别的隶属度;根据所述隶属度,通过预设的模糊值公式计算所述每个目标样本的情感模糊值,得到对应的情感模糊值集;将所述情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和所述目标样本对应的情感预测标签添加到所述源领域样本集中,以对所述源领域样本集进行扩充;根据扩充后的所述源领域样本集和所述目标领域样本集对所述跨领域文本情感分类模型进行再次训练,以完成对所述跨领域文本情感分类模型的训练。

【技术特征摘要】
1.一种跨领域文本情感分类模型的训练方法,其特征在于,所述方法包括下述步骤:根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述目标领域样本集中的每个目标样本为无标签样本;根据训练好的所述跨领域文本情感分类模型对所述目标领域样本集进行情感分类,得到所述每个目标样本对应的情感预测标签和所述每个目标样本属于预设的每个情感类别的隶属度;根据所述隶属度,通过预设的模糊值公式计算所述每个目标样本的情感模糊值,得到对应的情感模糊值集;将所述情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和所述目标样本对应的情感预测标签添加到所述源领域样本集中,以对所述源领域样本集进行扩充;根据扩充后的所述源领域样本集和所述目标领域样本集对所述跨领域文本情感分类模型进行再次训练,以完成对所述跨领域文本情感分类模型的训练。2.如权利要求1所述的方法,其特征在于,所述跨领域文本情感分类模型由自动编码器、领域分类器以及情感分类器组成。3.如权利要求1和2所述的方法,其特征在于,根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练的步骤,包括:根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述模型代价损失函数lALL为lALL=lSC+αlAE+βlDC,其中,lSC为预设的所述情感分类器的代价损失函数,lAE为预设的所述自动编码器的代价损失函数,α为预设的所述自动编码器的损失权衡参数,lDC为预设的所述领域分类器的代价损失函数,β为预设的所述领域分类器的损失权衡参数。4.如权利要求3所述的方法,其特征在于,根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练的步骤,包括:根据所述自动编码器的代价损失函数和所述源领域样本集对所述自动编码器进行训练,根据所述领域分类器的代价损失函数、所述源领域样本集以及所述目标领域样本集对所述领域分类器进行训练,根据所述情感分类器的代价损失函数和所述源领域样本集对所述情感分类器进行训练。5.一种跨领域文本情感分类模型的训练装置,其特征在于,所述装置包括:模型初次训练单元,用于根据预设的源领域样本集和预设的目标领域样本集对预先构建...

【专利技术属性】
技术研发人员:傅向华刘旺旺
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1