图像中的实体识别方法、装置、介质及电子设备制造方法及图纸

技术编号：40479173 阅读：4 留言：0更新日期：2024-02-26 19:14

本公开实施例涉及一种图像中的实体识别方法、装置、介质及电子设备，方法包括：通过获取待识别图像对应的第一语义空间编码向量，以及获取目标提示文本对应的第二语义空间编码向量，获取所述第一语义空间编码向量与所述第二语义空间编码向量之间的相似度，在所述相似度满足预设相似度阈值的情况下，利用视觉语义模型对所述待识别图像进行处理，得到所述待识别图像对应的图像说明文本，基于所述图像说明文本，确定所述待识别图像中是否包含所述目标实体。采用该方法可以在保障实体识别效果的同时减少利用视觉语义模型进行处理的待识别数量，降低计算资源。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，具体地，涉及一种图像中的实体识别方法、装置、介质及电子设备。

技术介绍

1、目前，对图像中的特定实体进行识别是一项具有重要意义的任务。相关技术中，针对人工智能生成内容(artificial intelligence generated content，aigc)图像，即aigc图像，如果文本表述不清晰或生成模型不完美，生成的aigc图像中的实体比真实世界更加抽象，针对真实场景中实体进行识别的模型，难以判别aigc图像中包含的抽象实体，针对该问题，相关技术中可以利用视觉语义模型将aigc图像反向转化为图像说明文本(imagecaption)，然后使用自然语言处理(natural language processing，nlp)技术分析文本内容，实现对aigc图像中的特定实体进行识别。

2、然而，利用视觉语义模型将aigc图像反向转化为图像说明文本，再使用自然语言处理技术分析文本内容，实现对aigc图像中的特定实体进行识别虽然是可行的，但是视觉语义模型的计算成本高，难以支撑高并发的场景。

技术实现思路

1、提供该
技术实现思路
部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、根据本公开实施例的第一方面，提供一种图像中的实体识别方法，所述方法包括：

3、获取待识别图像对应的第一语义空间编码向量；

4、获取目标提示文本对应的第二语义空间编码向量，所述目标提示文本为包含目标实体的图像关联的提示文本；

5、获取所述第一语义空间编码向量与所述第二语义空间编码向量之间的相似度；

6、在所述相似度满足预设相似度阈值的情况下，利用视觉语义模型对所述待识别图像进行处理，得到所述待识别图像对应的图像说明文本；

7、基于所述图像说明文本，确定所述待识别图像中是否包含所述目标实体。

8、根据本公开实施例的第二方面，提供一种图像中的实体识别装置，所述装置包括：

9、第一获取模块，用于获取待识别图像对应的第一语义空间编码向量；

10、第二获取模块，用于获取目标提示文本对应的第二语义空间编码向量，所述目标提示文本为包含目标实体的图像关联的提示文本；

11、第三获取模块，用于获取所述第一语义空间编码向量与所述第二语义空间编码向量之间的相似度；

12、第一确定模块，用于在所述相似度满足预设相似度阈值的情况下，利用视觉语义模型对所述待识别图像进行处理，得到所述待识别图像对应的图像说明文本；

13、第二确定模块，用于基于所述图像说明文本，确定所述待识别图像中是否包含所述目标实体。

14、根据本公开实施例的第三方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理装置执行时实现本公开第一方面所述方法的步骤。

15、根据本公开实施例的第四方面，提供一种电子设备，包括：

16、存储装置，其上存储有计算机程序；

17、处理装置，用于执行所述存储装置中的所述计算机程序，以实现本公开第一方面所述方法的步骤。

18、采用上述技术方案，通过获取待识别图像对应的第一语义空间编码向量，以及获取目标提示文本对应的第二语义空间编码向量，接着，获取所述第一语义空间编码向量与所述第二语义空间编码向量之间的相似度，接着，在所述相似度满足预设相似度阈值的情况下，利用视觉语义模型对所述待识别图像进行处理，得到所述待识别图像对应的图像说明文本，接着便可以基于所述图像说明文本，确定所述待识别图像中是否包含所述目标实体。这样，将待识别图像以及目标提示文本在语义空间进行相似度计算，由于目标提示文本为包含目标实体的图像关联的提示文本，因此，通过相似度计算结果可以确定在语义上潜在包含目标实体的待识别图像，后续进一步对确定的待识别图像利用视觉语义模型对所述待识别图像进行处理，可以减少利用视觉语义模型进行处理的待识别数量，降低计算资源消耗，可以兼容高并发的图像实体识别场景，并且，由于是通过语义对待识别图像进行的筛选，也在一定程度上保障了确定潜在包含目标实体的待识别图像的准确性，保障实体识别效果。

19、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种图像中的实体识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标提示文本是通过以下步骤得到的：

3.根据权利要求2所述的方法，其特征在于，所述基于所述样本图像对应的图像说明文本，得到所述目标提示文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述图像说明文本包括的各个候选文本分别对应在所述测试图像集上的效果评估指标，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述各个候选文本分别对应的效果评估指标，得到所述目标提示文本，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述图像为人工智能生成图像。

8.一种图像中的实体识别装置，其特征在于，所述装置包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理装置执行时实现权利要求1至7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

【技术特征摘要】

1.一种图像中的实体识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标提示文本是通过以下步骤得到的：

3.根据权利要求2所述的方法，其特征在于，所述基于所述样本图像对应的图像说明文本，得到所述目标提示文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述图像说明文本包括的各个候选文本分别对应在所述测试图像集上的效果评估指标，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述各个...

【专利技术属性】
技术研发人员：游京翰，施之望，周依梦，郭明宇，冉蛟，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人