一种信息识别方法、装置、设备及存储介质、程序产品制造方法及图纸

技术编号:37149643 阅读:8 留言:0更新日期:2023-04-06 22:04
本申请提供了一种信息识别方法、装置、设备及存储介质、程序产品;本申请实施例可以应用于云技术、人工智能、智慧交通、车载等各种场景,涉及人工智能技术;该方法包括:依据指定的信息类型,从预训练好的多模态分类模型的各个模块中,筛选出信息类型对应的匹配模块;其中,多模态分类模型是以文本模态的特征作为监督项,对图像模态的特征进行学习得到的;利用匹配模块,生成信息类型所对应的候选模型;依据信息类型对应的标注数据,对候选模型进行微调,得到信息类型对应的识别模型;当获取到信息类型的待识别信息时,通过识别模型对待识别信息进行特征提取,确定出识别结果。通过本申请,能够提高信息识别的智能程度。能够提高信息识别的智能程度。能够提高信息识别的智能程度。

【技术实现步骤摘要】
一种信息识别方法、装置、设备及存储介质、程序产品


[0001]本申请涉及人工智能技术,尤其涉及一种信息识别方法、装置、设备及存储介质、程序产品。

技术介绍

[0002]为了维度网络上的信息安全、健康,需要对网络上传播的,或者是用户发布的图像、文本、视频等信息进行识别,以及时发现违规信息,杜绝违规信息在网络上进一步传播。由于在网络上存在海量的信息,单纯依靠人工难以完成识别,因此需要借助于人工智能技术来实现信息识别。相关技术中,信息识别存在单模态识别核和多模态识别两种主流识别方式。然而,无论是多模态识别还是单模态识别,均存在覆盖的样本种类较少的问题,从而使得信息识别的智能程度较低。

技术实现思路

[0003]本申请实施例提供一种信息识别方法、装置、设备及计算机可读存储介质、程序产品,能够提高信息识别的智能程度。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供一种信息识别方法,包括:
[0006]依据指定的信息类型,从预训练好的多模态分类模型的各个模块中,筛选出所述信息类型对应的匹配模块;
[0007]其中,所述多模态分类模型是以文本模态的特征作为监督项,对图像模态的特征进行学习得到的;
[0008]利用所述匹配模块,生成所述信息类型所对应的候选模型;
[0009]依据所述信息类型对应的标注数据,对所述候选模型进行微调,得到所述信息类型对应的识别模型;
[0010]当获取到所述信息类型的待识别信息时,通过所述识别模型对所述待识别信息进行特征提取,确定出识别结果。
[0011]本申请实施例提供一种信息识别装置,包括:
[0012]信息筛选模块,用于依据指定的信息类型,从预训练好的多模态分类模型的各个模块中,筛选出所述信息类型对应的匹配模块;其中,所述多模态分类模型是以文本模态的特征作为监督项,对图像模态的特征进行学习得到的;
[0013]模型生成模块,用于利用所述匹配模块,生成所述信息类型所对应的候选模型;
[0014]模型微调模块,用于依据所述信息类型对应的标注数据,对所述候选模型进行微调,得到所述信息类型对应的识别模型;
[0015]信息识别模块,用于当获取到所述信息类型的待识别信息时,通过所述识别模型对所述待识别信息进行特征提取,确定出识别结果。
[0016]在本申请的一些实施例中,所述待识别信息包括:图文类型的多模态信息;所述信
息识别模块,还用于通过所述识别模型中的图像特征抽取模块,从所述多模态信息的图像部分中抽取出第一特征图,并从所述第一特征图中采样出多个图像特征;依据所述识别模型中的图像特征融合模块,对所述多个图像特征进行同模态融合,得到图像融合特征;依据所述识别模型中的文本特征融合模块,对从所述多模态信息的文本部分所抽取出的多个文本特征进行同模态融合,得到文本融合特征;利用所述识别模型中的跨模态特征融合模块,将所述图像融合特征和所述文本融合特征进行跨模态融合,得到多模态融合特征,并对所述多模态融合特征进行分类,得到所述多模态信息的识别结果。
[0017]在本申请的一些实施例中,所述待识别信息包括:图像类型的单模态信息;所述信息识别模块,还用于利用所述识别模型中的图像特征抽取模块,从所述图像类型的单模态信息中抽取出第二特征图;基于对从所述第二特征图中所提取到待处理特征进行特征分类,得到所述单模态信息的所述识别结果。
[0018]在本申请的一些实施例中,所述信息识别装置还包括:模型预训练模块;所述模型预训练模块,用于获取初始多模态模型和预训练图文数据;其中,所述预训练图文数据是未经过标注的图文数据;基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算,以及对所述文本数据进行掩码文本预测,将所述初始多模态模型进行预训练,得到所述多模态分类模型。
[0019]在本申请的一些实施例中,所述模型预训练模块,还用于基于通过所述初始多模态模型对所述预训练图文数据中的所述文本数据进行掩码文本预测,生成掩码预测损失值;基于对通过所述初始多模态模型从所述预训练图文数据中的所述图像数据中抽取出的预训练特征图进行池化操作,得到全局图像特征;利用所述初始多模态模型从所述预训练图文数据的文本数据所对应的预训练文本特征中,提取出全局文本特征;基于对所述全局图像特征和所述全局文本特征进行相似度计算,确定出相似度损失值;依据所述掩码预测损失值和所述相似度损失值,对所述初始多模态模型持续进行参数调整,直至满足预训练停止条件时,得到所述多模态分类模型。
[0020]在本申请的一些实施例中,所述图像数据包括:多个子图像数据,所述文本数据包括:多个子文本数据;所述全局图像特征中包括:多个所述子图像数据对应的多个第一特征向量,所述全局文本特征中包括:多个所述子文本数据对应的多个第二特征向量;
[0021]所述模型预训练模块,还用于基于将每个所述第一特征向量的转置结果分别与所述多个第二特征向量相乘,构造出基于所述图像数据预测所述文本数据时的第一损失值;基于分别将多个所述第一特征向量和每个所述第二特征向量的转置结果相乘,构造出基于所述文本数据预测所述图像数据时的第二损失值;将所述第一损失值和所述第二损失值,确定为所述相似度损失值。
[0022]在本申请的一些实施例中,所述模型预训练模块,还用于依据所述掩码预测损失值和所述相似度损失值,对所述初始多模态模型持续进行参数调整,直至满足预训练停止条件时,得到所述多模态分类模型之前,基于通过所述初始多模态模型对所述预训练图文数据中的图像数据和文本数据进行图文匹配检测,生成匹配检测损失值;依据所述掩码预测损失值、所述相似度损失值和所述匹配检测损失值,对所述初始多模态模型持续进行参数调整,直至满足预训练停止条件时,得到所述多模态分类模型。
[0023]本申请实施例提供一种信息识别设备,包括:
[0024]存储器,用于存储可执行指令;
[0025]处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息识别方法。
[0026]本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的信息识别方法。
[0027]本申请实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时本申请实施例提供的信息识别方法。
[0028]本申请实施例具有以下有益效果:本申请实施例中多模态分类模型利用文本模型的特征对图像模态的特征的学习进行监督得到的,预训练好的多模态分类模型能够针对图像模态的信息能够具有较好的泛化能力,针对单纯的图像模态的信息也能够进行处理,使得候选模型也针对图像模态的信息具有较好的泛化能力,接着通过信息类型所对应的标注数据对候选模型再进行针对性的微调,以使得无论是针对图像模态、图文模态还是文本模态的待识别信息,均能够进行识别,且取得较好的识别准确度,从而提升信息识别的智能程度。
附图说明<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息识别方法,其特征在于,所述信息识别方法包括:依据指定的信息类型,从预训练好的多模态分类模型的各个模块中,筛选出所述信息类型对应的匹配模块;其中,所述多模态分类模型是以文本模态的特征作为监督项,对图像模态的特征进行学习得到的;利用所述匹配模块,生成所述信息类型所对应的候选模型;依据所述信息类型对应的标注数据,对所述候选模型进行微调,得到所述信息类型对应的识别模型;当获取到所述信息类型的待识别信息时,通过所述识别模型对所述待识别信息进行特征提取,确定出识别结果。2.根据权利要求1所述的方法,其特征在于,所述待识别信息包括:图文类型的多模态信息;所述通过所述识别模型对所述待识别信息进行特征提取,确定出识别结果,包括:通过所述识别模型中的图像特征抽取模块,从所述多模态信息的图像部分中抽取出第一特征图,并从所述第一特征图中采样出多个图像特征;依据所述识别模型中的图像特征融合模块,对所述多个图像特征进行同模态融合,得到图像融合特征;依据所述识别模型中的文本特征融合模块,对从所述多模态信息的文本部分所抽取出的多个文本特征进行同模态融合,得到文本融合特征;利用所述识别模型中的跨模态特征融合模块,将所述图像融合特征和所述文本融合特征进行跨模态融合,得到多模态融合特征,并对所述多模态融合特征进行分类,得到所述多模态信息的识别结果。3.根据权利要求1所述的方法,其特征在于,所述待识别信息包括:图像类型的单模态信息;所述通过所述识别模型对所述待识别信息进行特征提取,确定出识别结果,包括:利用所述识别模型中的图像特征抽取模块,从所述图像类型的单模态信息中抽取出第二特征图;基于对从所述第二特征图中所提取到待处理特征进行特征分类,得到所述单模态信息的所述识别结果。4.根据权利要求1至3任一项所述的方法,其特征在于,所述依据指定的信息类型,从预训练好的多模态分类模型的各个模块中,筛选出所述信息类型对应的匹配模块之前,所述方法还包括:获取初始多模态模型和预训练图文数据;其中,所述预训练图文数据是未经过标注的图文数据;基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算,以及对所述文本数据进行掩码文本预测,将所述初始多模态模型进行预训练,得到所述多模态分类模型。5.根据权利要求4所述的方法,其特征在于,所述基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算,以及对所述文本数据进行掩码文本预测,将所述初始多模态模型进行预训练,得到所述多模态分类模型,包括:基于通过所述初始多模态模型对所述预训练图文数据中的所述文本数据进行掩码文
本预测,生成掩码预测损失值;基于对通过所述初始多模态模型从所述预训练图文数据中的所述图像数据中抽取出的预训练特征图进行池化操作,得到全局图像特征;利用所述初始多模态模型从所述预训练图文数据的文本数据所对应的预训练文本特征中,提取出全局文本特征;基于...

【专利技术属性】
技术研发人员:林志文孙众毅鄢科黄飞跃
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1