基于图像的人机交互方法、装置、设备及存储介质制造方法及图纸

技术编号：41293385 阅读：22 留言：0更新日期：2024-05-13 14:43

本公开提供了一种基于图像的人机交互方法、装置、设备及存储介质，涉及人工智能领域，尤其涉及图像处理领域。具体实现方案为：获取待分析图像，并确定待分析图像的图像布局信息和图像内容信息；其中，待分析图像中包括多种模态数据，布局信息表征预设粒度的图像元素在待分析图像中的分布情况，内容信息表征待分析图像中的模态数据所表达的内容；响应于获取到提问信息，根据图像布局信息和图像内容信息，确定提问信息对应的回应信息；其中，提问信息表征用户针对待分析图像提出的问题，回应信息表征提问信息所对应的回复答案。通过从图像中提取布局信息和内容信息，提高回答问题的精度，提升用户的人机交互体验。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域中的图像处理领域，尤其涉及一种基于图像的人机交互方法、装置、设备及存储介质。

技术介绍

1、随着人工智能领域的发展，对图像的自动理解和分析技术逐渐应用在各个行业，为人们的工作带来了便利。例如，用户可以针对一张图像进行提问，基于图像中的内容自动得到答案。

2、但是，工作场景中的图片类型较为复杂，例如，包括文档截图、表格截图、流程图、架构图等等类型。目前的图片理解技术对这些图片的内容的理解能力较低，无法达到用户需求，人机交互的体验感较差。

技术实现思路

1、本公开提供了一种基于图像的人机交互方法、装置、设备及存储介质。

2、根据本公开的第一方面，提供了一种基于图像的人机交互方法，包括：

3、获取待分析图像，所述待分析图像中包括至少两种模态数据；

4、确定所述待分析图像的图像布局信息和图像内容信息；其中，所述图像布局信息表征预设粒度的图像元素在待分析图像中的分布情况，所述图像内容信息表征待分析图像中的模态数据所表达的内容；p>

5、响应于本文档来自技高网...

【技术保护点】

1.一种基于图像的人机交互方法，包括：

2.根据权利要求1所述的方法，其中，所述确定所述待分析图像的图像布局信息和图像内容信息，包括：

3.根据权利要求2所述的方法，其中，所述确定所述待分析图像中预设粒度的图像元素，包括：

4.根据权利要求3所述的方法，其中，所述确定所述预设粒度的图像元素在所述待分析图像中的坐标位置，包括：

5.根据权利要求1-4中任一项所述的方法，其中，所述至少两种模态数据包括：文本模态和视觉模态；所述确定所述待分析图像的图像布局信息和图像内容信息，包括：

6.根据权利要求5所述的方法，其中，所述根据所述图像...

【技术特征摘要】

1.一种基于图像的人机交互方法，包括：

2.根据权利要求1所述的方法，其中，所述确定所述待分析图像的图像布局信息和图像内容信息，包括：

3.根据权利要求2所述的方法，其中，所述确定所述待分析图像中预设粒度的图像元素，包括：

4.根据权利要求3所述的方法，其中，所述确定所述预设粒度的图像元素在所述待分析图像中的坐标位置，包括：

6.根据权利要求5所述的方法，其中，所述根据所述图像布局信息和所述图像内容信息，确定所述提问信息对应的回应信息，包括：

7.根据权利要求6所述的方法，其中，所述根据所述目标信息和所述待分析图像的图像类别，确定所述回应信息，包括：

8.根据权利要求6所述的方法，所述根据所述图像布局信息和所述图像内容信息，确定所述待分析图像的图像类别，包括：

9.根据权利要求8所述的方法，还包括：

10.根据权利要求6所述的方法，其中，根据所述图像布局信息和所述图像内容信息，确定所述待分析图像的图像类别，包括：

11.根据权利要求10所述的方法，还包括：

【专利技术属性】
技术研发人员：王海威，张忠文，李港，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人