基于跨模态信息补全的零样本文本分类方法和装置制造方法及图纸

技术编号:45536399 阅读:28 留言:0更新日期:2025-06-13 17:37
本申请涉及一种基于跨模态信息补全的零样本文本分类方法和装置。该方法通过设计新的图像标签映射机制并基于上下文文本生成实现跨模态信息补全的图像构建,最后在推理阶段设计多模态协同推理框架,通过提示工程优化文本输入增强文本语义感知能力,有效提升了CLIP模型的零样本推理能力。针对自动化标签生成的语义偏差问题,基于上下文文本生成,构建跨模态信息补全的图像,以优化文本语义表征完整性,同时在推理阶段引入提示设计增强文本语义感知能力;两阶段关键词自动选择机制,首先利用大模型生成关键词候选集合,其次通过多模态匹配与选择,选择最佳关键词短语作为跨模态信息补全的文本信息,有效提高了语义准确性和领域适配性。

【技术实现步骤摘要】

本申请涉及零样本文本分类,特别是涉及一种基于跨模态信息补全的零样本文本分类方法和装置


技术介绍

1、文本分类是自然语言处理(nlp)领域的基础性任务,在新闻推荐、情感分析和医疗诊断等多个应用场景中发挥着重要作用,其核心目标是通过语义理解将文本映射到预定义的类别空间。然而,由于类别标注数据获取困难,尤其是特定专业领域,类别标注数据通常需要领域专家参与,导致人工标注成本高昂,使得传统的监督学习方法在数据稀缺的情况下难以有效构建。

2、为缓解类别标注数据不足问题,小样本和零样本文本分类方法应运而生。其中小样本文本分类方法通常采用迁移学习、元学习或数据增强等方法,在仅有少量标注数据的情况下,实现对新类别的分类。尽管小样本文本分类方法减少了对大量标注数据的依赖,但仍然需要一定数量的标注样本,且在类别变化较快或完全缺乏标注的情况下,性能难以保障。随着实际应用对模型泛化能力要求的提升以及数据稀缺问题的加剧,零样本文本分类(zero-shot text classification)逐渐成为研究热点。与依赖少量标注样本的小样本文本分类不同的是,零样本文本分类本文档来自技高网...

【技术保护点】

1.一种基于跨模态信息补全的零样本文本分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,计算标签对应的图像与相应文本样本之间的余弦相似度并取均值,根据得到的平均余弦相似度,确定每个标签的映射图像候选集,包括:

3.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,将各标签对应的训练集样本输入到大规模预训练语言模型,生成预设数量个候选关键词短语,构成关键词候选集,包括:

4.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,根据所述关键词候选集、标签映射...

【技术特征摘要】

1.一种基于跨模态信息补全的零样本文本分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,计算标签对应的图像与相应文本样本之间的余弦相似度并取均值,根据得到的平均余弦相似度,确定每个标签的映射图像候选集,包括:

3.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,将各标签对应的训练集样本输入到大规模预训练语言模型,生成预设数量个候选关键词短语,构成关键词候选集,包括:

4.根据权利要求1所述基于跨模态信息补全的零样本文本分类方法,其特征在于,根据所述关键词候选集、标签映射图像、文本样本、标签集进行多模态匹配与选择,得到与领域适配的最佳关键词,包括:

5.根据权利要求1...

【专利技术属性】
技术研发人员:范强虎文龙严浩周晓磊黄山徐歆尧张骁雄王芳潇
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1