【技术实现步骤摘要】
本申请涉及图像处理,特别是涉及一种图像处理方法、设备及存储介质。
技术介绍
1、在人工智能领域中,多模态大模型(large multi-modal models,lmms)已成为研究与应用的前沿热点之一。多模态大模型是指能够同时处理、理解并融合多种类型数据(如文本、图像、语音、视频等)的大型深度学习模型。这些模型通常具备庞大的参数规模(可达数十亿甚至数百亿级别),以及高度复杂的神经网络结构,以实现对不同模态信息的高效建模和精准推理。
2、在图像处理技术中,可以利用lmms完成如对图像进行目标检测、图像检索、场景识别等图像处理任务。但是,当图像分辨率较大时,如对目标场景进行视频采集得到的图像帧一般分辨率较大,为了获取细粒度视觉特征,需要将特征编码器的输入分辨率变大。
3、目前,大部分图像处理方法中均是复用已预训练好的如clip(contrastivelanguage-image pre-training)、openclip、eva-clip等编码器,其输入的分辨率很小(如224x224),这是因为分辨率改变往往需要
...【技术保护点】
1.一种图像处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述分别对所述待处理图像和所述多个图像块进行图像特征提取,得到所述待处理图像对应的全局图像特征和每个图像块分别对应的局部图像特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述拼接图像特征中含有的词元进行聚类,基于聚类得到的每个聚类簇对应的代表词元得到聚类图像特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述拼接图像特征中含有的词元进行多阶段聚类,基于每个阶段聚类得到的每个聚类簇对应的代表词元,得到所述每个阶段分别对应的
...【技术特征摘要】
1.一种图像处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述分别对所述待处理图像和所述多个图像块进行图像特征提取,得到所述待处理图像对应的全局图像特征和每个图像块分别对应的局部图像特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述拼接图像特征中含有的词元进行聚类,基于聚类得到的每个聚类簇对应的代表词元得到聚类图像特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述拼接图像特征中含有的词元进行多阶段聚类,基于每个阶段聚类得到的每个聚类簇对应的代表词元,得到所述每个阶段分别对应的初始聚类特征,包括:
5.根据权利要求4所述的方法,其特征在于,所述采用预设聚类算法对所述拼接图像特征中含有的词元进行多阶段聚类,得到所述...
【专利技术属性】
技术研发人员:刘忠耿,潘华东,殷俊,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。