【技术实现步骤摘要】
本公开涉及人工智能领域中的图像处理领域,尤其涉及一种基于图像的人机交互方法、装置、设备及存储介质。
技术介绍
1、随着人工智能领域的发展,对图像的自动理解和分析技术逐渐应用在各个行业,为人们的工作带来了便利。例如,用户可以针对一张图像进行提问,基于图像中的内容自动得到答案。
2、但是,工作场景中的图片类型较为复杂,例如,包括文档截图、表格截图、流程图、架构图等等类型。目前的图片理解技术对这些图片的内容的理解能力较低,无法达到用户需求,人机交互的体验感较差。
技术实现思路
1、本公开提供了一种基于图像的人机交互方法、装置、设备及存储介质。
2、根据本公开的第一方面,提供了一种基于图像的人机交互方法,包括:
3、获取待分析图像,所述待分析图像中包括至少两种模态数据;
4、确定所述待分析图像的图像布局信息和图像内容信息;其中,所述图像布局信息表征预设粒度的图像元素在待分析图像中的分布情况,所述图像内容信息表征待分析图像中的模态数据所表达的内容;
...【技术保护点】
1.一种基于图像的人机交互方法,包括:
2.根据权利要求1所述的方法,其中,所述确定所述待分析图像的图像布局信息和图像内容信息,包括:
3.根据权利要求2所述的方法,其中,所述确定所述待分析图像中预设粒度的图像元素,包括:
4.根据权利要求3所述的方法,其中,所述确定所述预设粒度的图像元素在所述待分析图像中的坐标位置,包括:
5.根据权利要求1-4中任一项所述的方法,其中,所述至少两种模态数据包括:文本模态和视觉模态;所述确定所述待分析图像的图像布局信息和图像内容信息,包括:
6.根据权利要求5所述的方法,其
...【技术特征摘要】
1.一种基于图像的人机交互方法,包括:
2.根据权利要求1所述的方法,其中,所述确定所述待分析图像的图像布局信息和图像内容信息,包括:
3.根据权利要求2所述的方法,其中,所述确定所述待分析图像中预设粒度的图像元素,包括:
4.根据权利要求3所述的方法,其中,所述确定所述预设粒度的图像元素在所述待分析图像中的坐标位置,包括:
5.根据权利要求1-4中任一项所述的方法,其中,所述至少两种模态数据包括:文本模态和视觉模态;所述确定所述待分析图像的图像布局信息和图像内容信息,包括:
6.根据权利要求5所述的方法,其中,所述根据所述图像布局信息和所述图像内容信息,确定所述提问信息对应的回应信息,包括:
7.根据权利要求6所述的方法,其中,所述根据所述目标信息和所述待分析图像的图像类别,确定所述回应信息,包括:
8.根据权利要求6所述的方法,所述根据所述图像布局信息和所述图像内容信息,确定所述待分析图像的图像类别,包括:
9.根据权利要求8所述的方法,还包括:
10.根据权利要求6所述的方法,其中,根据所述图像布局信息和所述图像内容信息,确定所述待分析图像的图像类别,包括:
11.根据权利要求10所述的方法,还包括:
【专利技术属性】
技术研发人员:王海威,张忠文,李港,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。