一种信息识别方法、装置、设备及存储介质、程序产品制造方法及图纸

技术编号：37149643 阅读：8 留言：0更新日期：2023-04-06 22:04

本申请提供了一种信息识别方法、装置、设备及存储介质、程序产品；本申请实施例可以应用于云技术、人工智能、智慧交通、车载等各种场景，涉及人工智能技术；该方法包括：依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出信息类型对应的匹配模块；其中，多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的；利用匹配模块，生成信息类型所对应的候选模型；依据信息类型对应的标注数据，对候选模型进行微调，得到信息类型对应的识别模型；当获取到信息类型的待识别信息时，通过识别模型对待识别信息进行特征提取，确定出识别结果。通过本申请，能够提高信息识别的智能程度。能够提高信息识别的智能程度。能够提高信息识别的智能程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息识别方法、装置、设备及存储介质、程序产品

[0001]本申请涉及人工智能技术，尤其涉及一种信息识别方法、装置、设备及存储介质、程序产品。

技术介绍

[0002]为了维度网络上的信息安全、健康，需要对网络上传播的，或者是用户发布的图像、文本、视频等信息进行识别，以及时发现违规信息，杜绝违规信息在网络上进一步传播。由于在网络上存在海量的信息，单纯依靠人工难以完成识别，因此需要借助于人工智能技术来实现信息识别。相关技术中，信息识别存在单模态识别核和多模态识别两种主流识别方式。然而，无论是多模态识别还是单模态识别，均存在覆盖的样本种类较少的问题，从而使得信息识别的智能程度较低。

技术实现思路

[0003]本申请实施例提供一种信息识别方法、装置、设备及计算机可读存储介质、程序产品，能够提高信息识别的智能程度。
[0004]本申请实施例的技术方案是这样实现的：
[0005]本申请实施例提供一种信息识别方法，包括：
[0006]依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出所述信息类型对应的匹配模块；
[0007]其中，所述多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的；
[0008]利用所述匹配模块，生成所述信息类型所对应的候选模型；
[0009]依据所述信息类型对应的标注数据，对所述候选模型进行微调，得到所述信息类型对应的识别模型；
[0010]当获取到所述信息类型的待识别信息时，通过所述识别模型对所...

【技术保护点】

【技术特征摘要】
1.一种信息识别方法，其特征在于，所述信息识别方法包括：依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出所述信息类型对应的匹配模块；其中，所述多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的；利用所述匹配模块，生成所述信息类型所对应的候选模型；依据所述信息类型对应的标注数据，对所述候选模型进行微调，得到所述信息类型对应的识别模型；当获取到所述信息类型的待识别信息时，通过所述识别模型对所述待识别信息进行特征提取，确定出识别结果。2.根据权利要求1所述的方法，其特征在于，所述待识别信息包括：图文类型的多模态信息；所述通过所述识别模型对所述待识别信息进行特征提取，确定出识别结果，包括：通过所述识别模型中的图像特征抽取模块，从所述多模态信息的图像部分中抽取出第一特征图，并从所述第一特征图中采样出多个图像特征；依据所述识别模型中的图像特征融合模块，对所述多个图像特征进行同模态融合，得到图像融合特征；依据所述识别模型中的文本特征融合模块，对从所述多模态信息的文本部分所抽取出的多个文本特征进行同模态融合，得到文本融合特征；利用所述识别模型中的跨模态特征融合模块，将所述图像融合特征和所述文本融合特征进行跨模态融合，得到多模态融合特征，并对所述多模态融合特征进行分类，得到所述多模态信息的识别结果。3.根据权利要求1所述的方法，其特征在于，所述待识别信息包括：图像类型的单模态信息；所述通过所述识别模型对所述待识别信息进行特征提取，确定出识别结果，包括：利用所述识别模型中的图像特征抽取模块，从所述图像类型的单模态信息中抽取出第二特征图；基于对从所述第二特征图中所提取到待处理特征进行特征分类，得到所述单模态信息的所述识别结果。4.根据权利要求1至3任一项所述的方法，其特征在于，所述依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出所述信息类型对应的匹配模块之前，所述方法还包括：获取初始多模态模型和预训练图文数据；其中，所述预训练图文数据是未经过标注的图文数据；基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算，以及对所述文本数据进行掩码文本预测，将所述初始多模态模型进行预训练，得到所述多模态分类模型。5.根据权利要求4所述的方法，其特征在于，所述基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算，以及对所述文本数据进行掩码文本预测，将所述初始多模态模型进行预训练，得到所述多模态分类模型，包括：基于通过所述初始多模态模型对所述预训练图文数据中的所述文本数据进行掩码文
本预测，生成掩码预测损失值；基于对通过所述初始多模态模型从所述预训练图文数据中的所述图像数据中抽取出的预训练特征图进行池化操作，得到全局图像特征；利用所述初始多模态模型从所述预训练图文数据的文本数据所对应的预训练文本特征中，提取出全局文本特征；基于...

【专利技术属性】
技术研发人员：林志文，孙众毅，鄢科，黄飞跃，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人