基于多模态技术的中文文本搜索图像或视频的方法技术

技术编号：38522959 阅读：10 留言：0更新日期：2023-08-19 17:01

基于多模态技术的中文文本搜索图像或视频的方法，包括如下步骤：将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量，并输入对Decoder网络模型进行初步训练，保存训练模型参数；根据图像向量和文字向量之间的相似度设置第一阈值及第二阈值，以对图像向量和文字向量进行两次筛选，并继续训练Decoder网络模型，保存训练模型参数；使用人工标注的数据集，对Decoder网络模型进行最后训练，完成模型精调，得到训练好的Decoder网络模型。本发明专利技术基于Transformer的Decoder构建Decoder网络并进行分步迭代训练，从而实现使用少量人工标定数据即可完成训练过程，最终实现图像到中文文本的标签生成功能。现图像到中文文本的标签生成功能。现图像到中文文本的标签生成功能。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态技术的中文文本搜索图像或视频的方法

[0001]本专利技术涉及大数据
，具体涉及基于多模态技术的中文文本搜索图像或视频的方法。

技术介绍

[0002]在互联网领域，文本是最常见的数据呈现形式，其次是图像、视频。这几种不同模态的数据不是截然分开独立存在的，而是紧密融合在一起的。比如，在图文检索任务中，需要用文本去搜索图像；在视频搜索推荐任务中，视频中除了图像外，存在的标题、字幕和语音都可以映射为文本；在文章配图等场景中，需要建模文字和图片的关系。所以，图文跨模态表示从某种意义上来讲是互联网领域里应用最广，最有价值的技术之一。

技术实现思路

[0003]为了实现使用少量人工标注数据即可完成多模态神经网络的训练，本专利技术提供了基于多模态技术的中文文本搜索图像或视频的方法，包括如下步骤：步骤S1：爬取初始训练集；步骤S2：将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量，将图像向量和文字向量对Decoder网络模型进行初步训练，待损失不再降低时，停止训练，保存训练模型参数；步骤S3：基于CLIP技术计算图像向量和文字向量之间的相似度，通过对相似度设置第一阈值，过滤一部分图像向量和文字向量，使用过滤后的图像向量和文字向量继续对Decoder网络模型进行训练，保存训练模型参数；步骤S4：重复步骤S3，根据第二阈值再次过滤图像向量及文字向量，并再次进行Decoder网络模型训练，保存训练模型参数；步骤S5：使用人工标注的数据集，对步骤S4所训练好的Decoder网络模型进行最后...

【技术保护点】

【技术特征摘要】
1.基于多模态技术的中文文本搜索图像或视频的方法，其特征在于，包括如下步骤：步骤S1：爬取初始训练集；步骤S2：将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量，将图像向量和文字向量对Decoder网络模型进行初步训练，待损失不再降低时，停止训练，保存训练模型参数；步骤S3：基于CLIP技术计算图像向量和文字向量之间的相似度，通过对相似度设置第一阈值，过滤一部分图像向量和文字向量，使用过滤后的图像向量和文字向量继续对Decoder网络模型进行训练，保存训练模型参数；步骤S4：重复步骤S3，根据第二阈值再次过滤图像向量及文字向量，并再次进行Decoder网络模型训练，保存训练模型参数；步骤S5：使用人工标注的数据集，对步骤S4所训练好的Decoder网络模型进行最后训练，完成模型精调，得到训练好的Decoder网络模型。2.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法，其特征在于，基于所训练好的Decoder网络模型，将需要对其进行搜索的图像或视频输入Decoder网络模型中，与搜索对象中所存在的搜索文本进行比对，返回搜索结果。3.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法...

【专利技术属性】
技术研发人员：韩福海，韩乃平，刘丽欣，付龙，
申请(专利权)人：先进操作系统创新中心天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人