图像区域的识别方法、装置、设备、介质及程序产品制造方法及图纸

技术编号：43977435 阅读：13 留言：0更新日期：2025-01-10 20:03

本申请公开了一种图像区域的识别方法、装置、设备、介质及程序产品，涉及人工智能领域。该方法包括：以第一文本和第i个第一候选区域为去噪条件，对第i个第一候选区域对应的噪声数据执行去噪过程，得到第i个去噪结果；基于多个第一候选区域分别对应的去噪结果，从多个第一候选区域中确定符合第一文本的文本描述的图像区域。采用生成方法预测图像和文本之间的关联程度，也即，以图像和文本为去噪条件，通过逐步去除数据中噪声的方式生成图像和文本之间的关联信息，从而逐步捕捉到图像的视觉内容与第一文本在不同层面上的语义联系，使得生成的图像和文本之间的关联信息更加准确，进一步提高了最终确定的图像区域的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能领域，特别涉及一种图像区域的识别方法、装置、设备、介质及程序产品。

技术介绍

1、在大规模图像处理与计算机视觉领域，大尺度图像(如高分辨率图像)的视觉接地(visual grounding)任务是一项极具挑战性的任务。视觉接地任务旨在根据给定文本，在大尺度图像中识别出与给定文本描述最为吻合的区域。

2、相关技术中，针对大尺度图像的视觉接地任务，需要对大尺度图像进行下采样，然后通过视觉接地模型对下采样后的图像和给定文本进行分析，在下采样后的图像中确定符合给定文本描述的候选区域，最后从原大尺度图像中定位与候选区域对应的图像区域。

3、然而，下采样过程会丢失图像细节，而图像细节的丢失会降低模型在图像中确定与文本描述相匹配区域的能力，从而降低模型识别得到的符合文本描述的图像区域的准确性。

技术实现思路

1、本申请实施例提供了一种图像区域的识别方法、装置、设备、介质及程序产品，能够提高从图像中识别得到的符合文本描述的区域的准确性，所述技术方案如下：p>

2、一方面本文档来自技高网...

【技术保护点】

1.一种图像区域的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述以所述第一文本和第i个第一候选区域为去噪条件，对所述第i个第一候选区域对应的噪声数据执行去噪过程，得到第i个去噪结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述以所述第一文本和第i个第一候选区域为去噪条件，对所述第i个第一候选区域对应的噪声数据执行去噪过程，得到第i个去噪结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一文本特征表示和所述第i个图像特征表示对所述第i个第一候选区域对应的噪声数据执行去噪过程，得到所述第i...

【技术特征摘要】

1.一种图像区域的识别方法，其特征在于，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一文本特征表示和所述第i个图像特征表示对所述第i个第一候选区域对应的噪声数据执行去噪过程，得到所述第i个去噪结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述融合所述第一文本特征表示和所述第i个图像特征表示，得到第i个融合特征表示，包括：

6.根据权利要求1至5任一所述的方法，其特征在于，所述第i个去噪结果中包括所述第一文本和所述第i个第一候选区域之间的匹配分数，所述匹配分数用于表达所述第一文本和所述第i个第一候选区域之间的关联程度；

7.根据权利要求6所述的方法，其特征在于，所述第i个第一候选区域中包括多...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：摩尔线程智能科技上海有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人