【技术实现步骤摘要】
本申请实施例涉及人工智能领域,特别涉及一种图像区域的识别方法、装置、设备、介质及程序产品。
技术介绍
1、在大规模图像处理与计算机视觉领域,大尺度图像(如高分辨率图像)的视觉接地(visual grounding)任务是一项极具挑战性的任务。视觉接地任务旨在根据给定文本,在大尺度图像中识别出与给定文本描述最为吻合的区域。
2、相关技术中,针对大尺度图像的视觉接地任务,需要对大尺度图像进行下采样,然后通过视觉接地模型对下采样后的图像和给定文本进行分析,在下采样后的图像中确定符合给定文本描述的候选区域,最后从原大尺度图像中定位与候选区域对应的图像区域。
3、然而,下采样过程会丢失图像细节,而图像细节的丢失会降低模型在图像中确定与文本描述相匹配区域的能力,从而降低模型识别得到的符合文本描述的图像区域的准确性。
技术实现思路
1、本申请实施例提供了一种图像区域的识别方法、装置、设备、介质及程序产品,能够提高从图像中识别得到的符合文本描述的区域的准确性,所述技术方案如下:
...【技术保护点】
1.一种图像区域的识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述以所述第一文本和第i个第一候选区域为去噪条件,对所述第i个第一候选区域对应的噪声数据执行去噪过程,得到第i个去噪结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述以所述第一文本和第i个第一候选区域为去噪条件,对所述第i个第一候选区域对应的噪声数据执行去噪过程,得到第i个去噪结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一文本特征表示和所述第i个图像特征表示对所述第i个第一候选区域对应的噪声数据执行去
...【技术特征摘要】
1.一种图像区域的识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述以所述第一文本和第i个第一候选区域为去噪条件,对所述第i个第一候选区域对应的噪声数据执行去噪过程,得到第i个去噪结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述以所述第一文本和第i个第一候选区域为去噪条件,对所述第i个第一候选区域对应的噪声数据执行去噪过程,得到第i个去噪结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一文本特征表示和所述第i个图像特征表示对所述第i个第一候选区域对应的噪声数据执行去噪过程,得到所述第i个去噪结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述融合所述第一文本特征表示和所述第i个图像特征表示,得到第i个融合特征表示,包括:
6.根据权利要求1至5任一所述的方法,其特征在于,所述第i个去噪结果中包括所述第一文本和所述第i个第一候选区域之间的匹配分数,所述匹配分数用于表达所述第一文本和所述第i个第一候选区域之间的关联程度;
7.根据权利要求6所述的方法,其特征在于,所述第i个第一候选区域中包括多...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:摩尔线程智能科技上海有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。