跨领域文本分类模型的训练方法、分类方法和装置制造方法及图纸

技术编号:37890964 阅读:22 留言:0更新日期:2023-06-18 11:54
本发明专利技术公开了一种跨领域文本分类模型的训练方法、分类方法和装置,其中方法包括:获取源域和目标域的两种样本集,分别输入到表征学习器中,得到各样本的局部嵌入信息和全局嵌入信息;将各个局部嵌入信息和全局嵌入信息进行融合,分别得到对应的深层语义特征;根据第一深层语义信息确定分类器损失和第一标签,根据第二深层语义信息得到第二标签;根据各深层语义信息和领域鉴别器,确定域对抗损失;通过不同域的文本图样本之间的差异,确定类对齐损失;进行迭代更新训练,优化分类器损失、类对齐损失和域对抗损失,直到满足训练结束条件,确定跨领域文本分类模型。通过上述方式,本发明专利技术实现了模型由源域向目标域的迁移,提高了文本分类的精确度。分类的精确度。分类的精确度。

【技术实现步骤摘要】
跨领域文本分类模型的训练方法、分类方法和装置


[0001]本专利技术涉及人工智能
,具体涉及一种跨领域文本分类模型的训练方法、分类方法和装置。

技术介绍

[0002]文本分类是自然语言处理的一个基本问题,利用算法对文本集按照一定的分类体系或标准进行自动分类或标记,目前已有诸多应用,如文档组织、新闻过滤、内容审核等。跨领域是指源领域(训练集)和目标领域(测试集)在数据分布上存在显著差异,通常的解决办法是通过域适应等手段,充分利用源域知识和充足的带标签数据,从而在无标签数据的情况下提高对于目标域的预测性能。
[0003]现有方案存在如下问题:现有模型难以捕获源域和目标域共有的文本分布特征,从而降低跨领域的分类准确率;未考虑不同领域内同一类文本之间的数量上的差异性,由此会产生类别不平衡的问题,一定程度上对模型由源域向目标域的迁移性能产生负面影响;未充分考虑和评估不同源域对于目标域的可迁移性能,若存在不可靠的源域信息,则会对模型造成负迁移的不利影响。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供一种克服本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种跨领域文本分类模型的训练方法,所述方法包括:获取第一文本图样本集和第二文本图样本集,分别输入到表征学习器中,得到与各个文本图样本对应的局部嵌入信息和全局嵌入信息;基于注意力机制分别将各个所述局部嵌入信息和所述全局嵌入信息进行融合,得到第一深层语义特征和第二深层语义特征;将所述第一深层语义特征输入到标签分类器,确定分类器损失和第一标签,将所述第二深层语义特征输入到所述标签分类器得到第二标签;将所述第一深层语义特征和所述第二深层语义特征输入到领域鉴别器,确定域对抗损失;根据第一文本图样本集和第二文本图样本集中的同一类文本图样本之间的差异,确定类对齐损失;进行迭代更新训练,优化所述分类器损失、所述类对齐损失和所述域对抗损失,直到满足训练结束条件,确定所述跨领域文本分类模型。2.根据权利要求1所述的方法,其特征在于,所述获取第一文本图样本集和第二文本图样本集,分别输入到表征学习器中,得到与各个文本图样本对应的局部嵌入信息和全局嵌入信息包括:利用基于图邻接矩阵的卷积计算各所述文本图样本内各节点的局部嵌入信息;利用随机游走方式计算各所述文本图样本内各节点之间的语义相似度,得到频率矩阵;基于所述频率矩阵,计算正点互信息矩阵;基于所述正点互信息矩阵的卷积计算各所述节点的全局嵌入信息。3.根据权利要求1所述的方法,其特征在于,所述基于注意力机制分别将各个所述局部嵌入信息和所述全局嵌入信息进行融合,得到第一深层语义特征和第二深层语义特征包括:利用图注意力机制,通过分别聚合所述第一文本图样本集和所述第二文本图样本集中各文本图样本内各节点的局部嵌入信息和全局嵌入信息,生成所述第一深层语义特征和所述第二深层语义特征。4.根据权利要求1所述的方法,其特征在于,所述将所述第一深层语义特征输入到标签分类器,确定分类器损失和第一标签包括:将所述第一深层语义特征输入到标签分类器中得到第一标签的预测值;根据所述预测值和所述第一文本图样本集中的带有标签的节点的真实值确定交叉熵损失,并将所述交叉熵损失作为分类器损失;所述将所述第二深层语义特征输入到所述标签分类器得到第二标签包括:将所述第二深层语义特征输入到所述标签分类器中得到相应各节点的输出编码,并根据所述输出编码确定所述第二标签;所述将所述第一深层语义特征和所述第二深层语义特征输入到领域鉴别器,确定域对抗损失包括:将所述第一深层语义特征和所述第二深层语义特征输入到领域鉴别器得到领域标签值;根据所述领域标签值和土方移动距离计算得到第一文本图样本集和第二文本图样本
集之间的域对抗损失。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述根据第一文本图样本集和第二文本图样本集中的同一类文本图样本之间的差异,确定类对齐损失包括:分别计算第一文本图...

【专利技术属性】
技术研发人员:桑杲
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1