【技术实现步骤摘要】
本申请涉及零样本文本分类,特别是涉及一种基于跨模态信息补全的零样本文本分类方法和装置。
技术介绍
1、文本分类是自然语言处理(nlp)领域的基础性任务,在新闻推荐、情感分析和医疗诊断等多个应用场景中发挥着重要作用,其核心目标是通过语义理解将文本映射到预定义的类别空间。然而,由于类别标注数据获取困难,尤其是特定专业领域,类别标注数据通常需要领域专家参与,导致人工标注成本高昂,使得传统的监督学习方法在数据稀缺的情况下难以有效构建。
2、为缓解类别标注数据不足问题,小样本和零样本文本分类方法应运而生。其中小样本文本分类方法通常采用迁移学习、元学习或数据增强等方法,在仅有少量标注数据的情况下,实现对新类别的分类。尽管小样本文本分类方法减少了对大量标注数据的依赖,但仍然需要一定数量的标注样本,且在类别变化较快或完全缺乏标注的情况下,性能难以保障。随着实际应用对模型泛化能力要求的提升以及数据稀缺问题的加剧,零样本文本分类(zero-shot text classification)逐渐成为研究热点。与依赖少量标注样本的小样本文本分类不同
...【技术保护点】
1.一种基于跨模态信息补全的零样本文本分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,计算标签对应的图像与相应文本样本之间的余弦相似度并取均值,根据得到的平均余弦相似度,确定每个标签的映射图像候选集,包括:
3.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,将各标签对应的训练集样本输入到大规模预训练语言模型,生成预设数量个候选关键词短语,构成关键词候选集,包括:
4.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,根据所述关
...【技术特征摘要】
1.一种基于跨模态信息补全的零样本文本分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,计算标签对应的图像与相应文本样本之间的余弦相似度并取均值,根据得到的平均余弦相似度,确定每个标签的映射图像候选集,包括:
3.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,将各标签对应的训练集样本输入到大规模预训练语言模型,生成预设数量个候选关键词短语,构成关键词候选集,包括:
4.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,根据所述关键词候选集、标签映射图像、文本样本、标签集进行多模态匹配与选择,得到与领域适配的最佳关键词,包括:
5.根据权利要求1...
【专利技术属性】
技术研发人员:范强,虎文龙,严浩,周晓磊,黄山,徐歆尧,张骁雄,王芳潇,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。