System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于图像的人机交互方法、装置、设备及存储介质制造方法及图纸_技高网

基于图像的人机交互方法、装置、设备及存储介质制造方法及图纸

技术编号:41293385 阅读:16 留言:0更新日期:2024-05-13 14:43
本公开提供了一种基于图像的人机交互方法、装置、设备及存储介质,涉及人工智能领域,尤其涉及图像处理领域。具体实现方案为:获取待分析图像,并确定待分析图像的图像布局信息和图像内容信息;其中,待分析图像中包括多种模态数据,布局信息表征预设粒度的图像元素在待分析图像中的分布情况,内容信息表征待分析图像中的模态数据所表达的内容;响应于获取到提问信息,根据图像布局信息和图像内容信息,确定提问信息对应的回应信息;其中,提问信息表征用户针对待分析图像提出的问题,回应信息表征提问信息所对应的回复答案。通过从图像中提取布局信息和内容信息,提高回答问题的精度,提升用户的人机交互体验。

【技术实现步骤摘要】

本公开涉及人工智能领域中的图像处理领域,尤其涉及一种基于图像的人机交互方法、装置、设备及存储介质


技术介绍

1、随着人工智能领域的发展,对图像的自动理解和分析技术逐渐应用在各个行业,为人们的工作带来了便利。例如,用户可以针对一张图像进行提问,基于图像中的内容自动得到答案。

2、但是,工作场景中的图片类型较为复杂,例如,包括文档截图、表格截图、流程图、架构图等等类型。目前的图片理解技术对这些图片的内容的理解能力较低,无法达到用户需求,人机交互的体验感较差。


技术实现思路

1、本公开提供了一种基于图像的人机交互方法、装置、设备及存储介质。

2、根据本公开的第一方面,提供了一种基于图像的人机交互方法,包括:

3、获取待分析图像,所述待分析图像中包括至少两种模态数据;

4、确定所述待分析图像的图像布局信息和图像内容信息;其中,所述图像布局信息表征预设粒度的图像元素在待分析图像中的分布情况,所述图像内容信息表征待分析图像中的模态数据所表达的内容;

5、响应于获取到的提问信息,根据所述图像布局信息和所述图像内容信息,确定所述提问信息对应的回应信息;其中,所述提问信息表征针对待分析图像提出的问题,所述回应信息表征所述提问信息所对应的回复答案。

6、根据本公开的第二方面,提供了一种基于图像的人机交互装置,包括:

7、获取单元,用于获取待分析图像,所述待分析图像包括至少两种模态数据;

8、第一确定单元,用于确定所述待分析图像的图像布局信息和图像内容信息;其中,所述图像布局信息表征预设粒度的图像元素在待分析图像中的分布情况,所述图像内容信息表征待分析图像中的模态数据所表达的内容;

9、第二确定单元,用于响应于获取到的提问信息,根据所述图像布局信息和所述图像内容信息,确定所述提问信息对应的回应信息;其中,所述提问信息表征针对待分析图像提出的问题,所述回应信息表征所述提问信息所对应的回复答案。

10、根据本公开的第三方面,提供了一种电子设备,包括:

11、至少一个处理器;以及

12、与所述至少一个处理器通信连接的存储器;

13、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。

14、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面所述的方法。

15、根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法。

16、根据本公开的技术,提高了对图像的理解精度,提升用户的人机交互体验。

17、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种基于图像的人机交互方法,包括:

2.根据权利要求1所述的方法,其中,所述确定所述待分析图像的图像布局信息和图像内容信息,包括:

3.根据权利要求2所述的方法,其中,所述确定所述待分析图像中预设粒度的图像元素,包括:

4.根据权利要求3所述的方法,其中,所述确定所述预设粒度的图像元素在所述待分析图像中的坐标位置,包括:

5.根据权利要求1-4中任一项所述的方法,其中,所述至少两种模态数据包括:文本模态和视觉模态;所述确定所述待分析图像的图像布局信息和图像内容信息,包括:

6.根据权利要求5所述的方法,其中,所述根据所述图像布局信息和所述图像内容信息,确定所述提问信息对应的回应信息,包括:

7.根据权利要求6所述的方法,其中,所述根据所述目标信息和所述待分析图像的图像类别,确定所述回应信息,包括:

8.根据权利要求6所述的方法,所述根据所述图像布局信息和所述图像内容信息,确定所述待分析图像的图像类别,包括:

9.根据权利要求8所述的方法,还包括:

10.根据权利要求6所述的方法,其中,根据所述图像布局信息和所述图像内容信息,确定所述待分析图像的图像类别,包括:

11.根据权利要求10所述的方法,还包括:

12.一种基于图像的人机交互装置,包括:

13.根据权利要求12所述的装置,其中,所述第一确定单元,包括:

14.根据权利要求13所述的装置,其中,所述元素确定模块,包括:

15.根据权利要求14所述的装置,其中,所述坐标确定模块,包括:

16.根据权利要求12-15中任一项所述的装置,其中,所述至少两种模态数据包括:文本模态和视觉模态;所述第一确定单元,包括:

17.根据权利要求16所述的装置,其中,所述第二确定单元,包括:

18.根据权利要求17所述的装置,其中,所述回应确定模块,包括:

19.根据权利要求17所述的装置,所述类别确定模块,包括:

20.根据权利要求19所述的装置,还包括:

21.根据权利要求17所述的装置,其中,所述类别确定模块,包括:

22.根据权利要求21所述的装置,还包括:

23.一种电子设备,包括:

24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。

25.一种计算机程序产品,其中,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-11中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于图像的人机交互方法,包括:

2.根据权利要求1所述的方法,其中,所述确定所述待分析图像的图像布局信息和图像内容信息,包括:

3.根据权利要求2所述的方法,其中,所述确定所述待分析图像中预设粒度的图像元素,包括:

4.根据权利要求3所述的方法,其中,所述确定所述预设粒度的图像元素在所述待分析图像中的坐标位置,包括:

5.根据权利要求1-4中任一项所述的方法,其中,所述至少两种模态数据包括:文本模态和视觉模态;所述确定所述待分析图像的图像布局信息和图像内容信息,包括:

6.根据权利要求5所述的方法,其中,所述根据所述图像布局信息和所述图像内容信息,确定所述提问信息对应的回应信息,包括:

7.根据权利要求6所述的方法,其中,所述根据所述目标信息和所述待分析图像的图像类别,确定所述回应信息,包括:

8.根据权利要求6所述的方法,所述根据所述图像布局信息和所述图像内容信息,确定所述待分析图像的图像类别,包括:

9.根据权利要求8所述的方法,还包括:

10.根据权利要求6所述的方法,其中,根据所述图像布局信息和所述图像内容信息,确定所述待分析图像的图像类别,包括:

11.根据权利要求10所述的方法,还包括:

【专利技术属性】
技术研发人员:王海威张忠文李港
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1