用于分析内容的方法和装置及计算机可读存储介质制造方法及图纸

技术编号:42295489 阅读:18 留言:0更新日期:2024-08-14 15:45
公开了一种用于分析内容的方法和装置及计算机可读存储介质。该方法包括:获得分别与任务描述的多个类别描述中的每个类别描述相关的多个提示集合;利用多模态模型提取内容的特征以及包括多个类别描述及多个提示集合的文本的特征;基于内容的特征与和该内容属于同一类别的文本的加权的特征之间的距离的上界和内容的特征与和该内容属于不同类别的文本的加权的特征之间的距离的下界之差,来构建指示损失函数,其中,通过使指示损失函数最小来获得文本的特征的权重;和,利用多模态模型,基于内容的特征以及文本的具有所获得的权重的特征来检测与任务描述匹配的内容。

【技术实现步骤摘要】

本公开总体上涉及多模态理解的领域,并且更具体地,涉及以少量指示进行基于提示的内容分析的方法。


技术介绍

1、对诸如视频、图像、音频等的内容进行分析具有越来越广泛的商业应用,例如流媒体平台、电视台和传统多媒体行业。目前的视频分析技术得益于深度学习的发展。一些模型被开发用于视频分类、定位、字幕等。然而,这些现有的模型极度依赖大量的训练数据和专业的人工处理。因此,基于经典深度学习模型的解决方案需要海量的数据。

2、近来,包括语言模型和多模态模型在内的大规模预训练模型以零样本的方式在一些下游任务上取得了出色的性能,并且还展示出对许多常见概念进行概括理解的能力。这些优势使得能够减少海量数据需求并且降低人工成本。

3、希望开发一种技术,可以激发基于领域数据的大规模预训练模型的潜在能力,以满足客户的指定要求。


技术实现思路

1、在下文中给出了关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要本文档来自技高网...

【技术保护点】

1.一种用于分析内容的方法,包括:

2.根据权利要求1所述的方法,其中,获得所述多个提示集合还包括:

3.根据权利要求2所述的方法,其中,所述评分与利用所述多模态模型进行的分类的准确度有关,以及其中,所述评分包括:

4.根据权利要求2所述的方法,其中,所述评分包括:

5.根据权利要求3或4所述的方法,还包括:

6.根据权利要求1至4中任一项所述的方法,其中,获得所述多个提示集合还包括:

7.根据权利要求6所述的方法,其中,还按照与所述任务描述相关的限制条件来向所述语言模型输入另外的描述。

<p>8.根据权利要求...

【技术特征摘要】

1.一种用于分析内容的方法,包括:

2.根据权利要求1所述的方法,其中,获得所述多个提示集合还包括:

3.根据权利要求2所述的方法,其中,所述评分与利用所述多模态模型进行的分类的准确度有关,以及其中,所述评分包括:

4.根据权利要求2所述的方法,其中,所述评分包括:

5.根据权利要求3或4所述的方法,还包括:

6.根据权利要求1至4中任一项所述的方法,其中,获得所述多个提示集合还...

【专利技术属性】
技术研发人员:孙利汪留安孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1