一种标签识别的方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:39261800 阅读:8 留言:0更新日期:2023-10-30 12:14
本申请实施例公开了一种标签识别的方法、装置、设备、存储介质及程序产品,至少涉及人工智能等技术,使用统一的标签识别模型刻画不同场景下多模态内容的标签,无需重复开发不同场景下的识别模型,节省开发成本,降低资源占用。该方法包括:获取待识别任务在第一场景下的提示信息和多个模态信息,提示信息用于指示每个模态信息在第一场景下的标签提示描述;提取每个模态信息的特征向量以及提示信息的特征向量;对多个模态信息的特征向量进行融合处理,得到融合特征向量;基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理,得到标签识别结果,标签识别结果用于指示待识别任务在第一场景下的分类标签。任务在第一场景下的分类标签。任务在第一场景下的分类标签。

【技术实现步骤摘要】
一种标签识别的方法、装置、设备、存储介质及程序产品


[0001]本申请实施例涉及人工智能
,具体涉及一种标签识别的方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]随着科学技术的发展,使用对象在不同场景下会发布多种形态的内容,例如图文、视频、音乐等。不同形态的内容会通过搜索引擎、推荐引擎或者社交引擎等渠道分发给海量的使用对象。在分发过程中需要对内容进行理解,深刻精度的内容理解能够帮助信息流业务搭建内容与使用对象之间的桥梁,便于能够刻画使用对象的兴趣点和内容标签特性。在不同的场景中,相同的标签词也会有不同的含义。譬如说,针对小世界场景中对应的滴滴标签,则描述的是公司名;而在频道场景中,滴滴标签则指的是交友滴滴。
[0003]在传统的标签识别的方案中,通常是针对每个业务场景构建不同的业务模型和标签分类词表,并借助人工标注的方式对不同业务场景标记大量的内容样本,以此使用不同业务场景中的内容样本来训练不同的识别模型后,再针对各个业务场景独立相应的识别模型。然而,多个业务场景的任务之间无法相互提供有效信息,从而需要针对不同的场景重复地开发对应的识别模型,导致不同业务场景对应训练得到的识别模型并不统一,难以选择合适的识别模型统一地识别多个业务场景下的标签;而且模型在部署中会存在多个不同的识别模型,导致资源占用较多。

技术实现思路

[0004]本申请实施例提供了一种标签识别的方法、装置、设备、存储介质及程序产品,能够对不同场景下多模态的内容进行标签的刻画,且无需重复对不同场景下的识别模型进行开发,节省重复开发的成本,降低资源占用。
[0005]第一方面,本申请实施例提供了一种标签识别的方法。该方法包括:获取待识别任务在第一场景下的提示信息和多个模态信息,提示信息用于指示每个模态信息在第一场景下的标签提示描述,每个模态信息用于指示待识别任务在对应模态下的内容情况;提取每个模态信息的特征向量以及提示信息的特征向量;对多个模态信息的特征向量进行融合处理,得到融合特征向量;基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理,得到标签识别结果,标签识别结果用于指示待识别任务在第一场景下的分类标签,标签识别模型是以训练待识别任务在第一场景下的分类标签为训练目标,以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。
[0006]第二方面,本申请实施例提供一种标签识别装置。该标签识别装置包括获取单元和处理单元。其中,获取单元,用于获取待识别任务在第一场景下的提示信息和多个模态信息,提示信息用于指示每个模态信息在第一场景下的标签提示描述,每个模态信息用于指示待识别任务在对应模态下的内容情况。处理单元,用于提取每个模态信息的特征向量以
及提示信息的特征向量。处理单元,用于对多个模态信息的特征向量进行融合处理,得到融合特征向量。处理单元,用于基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理,得到标签识别结果,标签识别结果用于指示待识别任务在第一场景下的分类标签,标签识别模型是以训练待识别任务在第一场景下的分类标签为训练目标,以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。
[0007]在一些可选的实施方式中,处理单元用于:拼接融合特征向量与提示信息的特征向量,得到拼接的特征向量;基于标签识别模型中的编码子模型对拼接的特征向量进行编码处理,得到每个模态信息的内容表示;基于标签识别模型中的分类子模型对每个模态信息的内容表示进行识别处理,得到待识别任务在第一场景下的预测分类概率;基于预测分类概率确定标签识别结果。
[0008]在另一些可选的实施方式中,获取单元还用于:在基于标签识别模型对融合特征向量和提示信息的特征向量进行识别处理,得到标签识别结果之前,获取训练样本,训练样本包括样本分类任务在多个第二场景下的提示样本、以及多个模态样本信息。其中,提示样本用于指示每个模态样本信息在每个第二场景下的标签提示描述,每个模态样本信息用于指示样本分类任务在对应样本模态下的内容情况。处理单元用于:提取提示样本的特征向量以及每个模态样本信息的特征向量;基于提示样本的特征向量以及每个模态样本信息的特征向量,对标签识别模型进行迭代训练。
[0009]在另一些可选的实施方式中,处理单元用于:将多个模态样本信息的特征向量进行拼接,得到拼接的样本特征向量;基于初始分类模型对拼接的样本特征向量进行预测处理,得到样本分类任务在每个第二场景下的预测标签;计算样本分类任务在多个第二场景下的预测标签与提示样本之间的差异,以获取目标损失值;基于目标损失值对初始分类模型的模型参数进行更新处理,得到标签识别模型。
[0010]在另一些可选的实施方式中,处理单元用于:计算样本分类任务在多个第二场景下的预测标签与提示样本之间的标签相似度,以得到目标损失值。
[0011]在另一些可选的实施方式中,多个模态信息包括视频信息、音频信息和图像信息中的一个或多个、以及文本信息。
[0012]在另一些可选的实施方式中,处理单元用于:基于多层Transformer模型对文本信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理,得到融合特征向量。
[0013]在另一些可选的实施方式中,处理单元用于:在基于多层Transformer模型对文本信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理,得到融合特征向量之前,对文本信息的特征向量进行特征删除和/或特征遮盖处理,得到第一文本特征;基于文本信息的特征向量和第一文本特征,确定第二文本特征,第二文本特征为预测得到的被执行特征删除和/或特征遮盖处理的文本特征。处理单元用于基于多层Transformer模型对视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个、以及文本信息的特征向量和第一文本特征进行融合处理,得到融合特征向量。
[0014]在另一些可选的实施方式中,处理单元用于:在基于多层Transformer模型对文本
信息的特征向量、以及视频信息的特征向量、音频信息的特征向量和图像信息的特征向量中的一个或多个进行融合处理,得到融合特征向量之前,对视频信息的特征向量进行特征删除和/或特征遮盖处理,得到第一视频特征;基于视频信息的特征向量和第一视频特征,确定第二视频特征,第二视频特征为预测得到的被执行特征删除和/或特征遮盖处理的视频特征。处理单元用于基于多层Transformer模型对文本信息的特征向量、视频信息的特征向量、以及第一视频特征进行融合处理,得到融合特征向量。
[0015]在另一些可选的实施方式中,提示信息包括第一提示值、第二提示值以及第三提示值中的一个或多个。其中,第一提示值用于指示多个待识别任务共享的提示情况,第二提示值用于指示每个待识别任务的提示情况,第三提示值用于指示每个待识别任务中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签识别的方法,其特征在于,包括:获取待识别任务在第一场景下的提示信息和多个模态信息,所述提示信息用于指示每个所述模态信息在所述第一场景下的标签提示描述,每个所述模态信息用于指示所述待识别任务在对应模态下的内容情况;提取每个所述模态信息的特征向量以及所述提示信息的特征向量;对多个所述模态信息的特征向量进行融合处理,得到融合特征向量;基于标签识别模型对所述融合特征向量和所述提示信息的特征向量进行识别处理,得到标签识别结果,所述标签识别结果用于指示所述待识别任务在所述第一场景下的分类标签,所述标签识别模型是以训练所述待识别任务在所述第一场景下的分类标签为训练目标,以多个第二场景下的提示样本的特征向量和多个模态样本信息的特征向量为训练数据进行迭代训练得到的机器学习模型。2.根据权利要求1所述的方法,其特征在于,所述基于标签识别模型对所述融合特征向量和所述提示信息的特征向量进行识别处理,得到标签识别结果,包括:拼接所述融合特征向量与所述提示信息的特征向量,得到拼接的特征向量;基于所述标签识别模型中的编码子模型对所述拼接的特征向量进行编码处理,得到每个所述模态信息的内容表示;基于所述标签识别模型中的分类子模型对每个所述模态信息的内容表示进行识别处理,得到所述待识别任务在所述第一场景下的预测分类概率;基于所述预测分类概率确定所述标签识别结果。3.根据权利要求1至2中任一项所述的方法,其特征在于,所述在基于标签识别模型对所述融合特征向量和所述提示信息的特征向量进行识别处理,得到标签识别结果之前,所述方法还包括:获取训练样本,所述训练样本包括样本分类任务在多个所述第二场景下的提示样本、以及多个模态样本信息,所述提示样本用于指示每个所述模态样本信息在每个所述第二场景下的标签提示描述,每个模态样本信息用于指示所述样本分类任务在对应样本模态下的内容情况;提取所述提示样本的特征向量以及每个所述模态样本信息的特征向量;基于所述提示样本的特征向量以及所述每个模态样本信息的特征向量,对所述标签识别模型进行迭代训练。4.根据权利要求3所述的方法,其特征在于,所述基于所述提示样本的特征向量以及所述每个模态样本信息的特征向量,对所述标签识别模型进行迭代训练,包括:将所述多个模态样本信息的特征向量进行拼接,得到拼接的样本特征向量;基于初始分类模型对所述拼接的样本特征向量进行预测处理,得到所述样本分类任务在每个所述第二场景下的预测标签;计算所述样本分类任务在多个所述第二场景下的预测标签与所述提示样本之间的差异,以获取目标损失值;基于所述目标损失值对所述初始分类模型的模型参数进行更新处理,得到所述标签识别模型。5.根据权利要求3所述的方法,其特征在于,所述计算所述样本分类任务在多个所述第
二场景下的预测标签与所述提示样本之间的差异,以获取目标损失值,包括:计算所述样本分类任务在多个所述第二场景下的预测标签与所述提示样本之间的标签相似度,以得到目标损失值。6.根据权利要求1至2中任一项所述的方法,其特征在于,所述多个模态信息包括视频信息、音频信息和图像信息中的一个或多个、以及文本信息。7.根据权利要求6所述的方法,其特征在于,所述对多个所述模态信息的特征向量进行融合处理,得到融合特征向量,包括:基于多层Transformer模型对所述文本信息的特征向量、以及所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个进行融合处理,得到融合特征向量。8.根据权利要求7所述的方法,其特征在于,在基于多层Transformer模型对所述文本信息的特征向量、以及所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个进行融合处理,得到融合特征向量之前,所述方法还包括:对所述文本信息的特征向量进行特征删除和/或特征遮盖处理,得到第一文本特征;基于所述文本信息的特征向量和所述第一文本特征,确定第二文本特征,所述第二文本特征为预测得到的被执行所述特征删除和/或特征遮盖处理的文本特征;基于多层Transformer模型对所述文本信息的特征向量、以及所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个进行融合处理,得到融合特征向量,包括:基于多层Transformer模型对所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个、以及所述文本信息的特征向量和所述第一文本特征进行融合处理,得到融合特征向量。9.根据权利要求7所述的方法,其特征在于,在基于多层Transformer模型对所述文本信息的特征向量、以及所述视频信息的特征向量、所述音频信息的特征向量和所述图像信息的特征向量中的一个或多个进行融合处理,得到融合特征向量之前...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1