System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多模态搜索方法和装置制造方法及图纸_技高网

多模态搜索方法和装置制造方法及图纸

技术编号:41059053 阅读:2 留言:0更新日期:2024-04-24 11:10
本公开提供了一种多模态搜索方法和装置,涉及人工智能技术领域,具体为自然语言处理、计算机视觉和深度学习等技术领域。该方法的一具体实施方式包括:获取相机采集的实时视频流;对实时视频流进行图像检测,得到图像检测结果;响应于确定图像检测结果中出现目标物体,获取麦克风采集的实时语音流;对实时语音流进行语音识别,得到目标文本;基于目标物体和目标文本进行搜索,得到多模态搜索结果。该实施方式实现了多模态信息的高效融合,达到更自然、高效的搜索体验。

【技术实现步骤摘要】

本公开涉及人工智能,具体为自然语言处理、计算机视觉和深度学习等。


技术介绍

1、随着人工智能技术的迅速发展,搜索类产品正在经历从传统的文本搜索到语音搜索、图像搜索的扩充,整体呈现更智能、更自然、更高效的发展趋势。

2、目前,常用的搜索方式主要是单种模态搜索。单种模态搜索主要包括文本搜索、语音搜索和图像搜索。其中,文本搜索需要用户通过语言文字完整表达搜索诉求、并完成手动打字输入。语音搜索需要用户通过语言描述出想要搜索的内容,本质上与文本搜索相似。图像搜索需要用户拍照或相册上传单张图像。


技术实现思路

1、本公开实施例提出了一种多模态搜索方法、装置、设备、存储介质以及程序产品。

2、第一方面,本公开实施例提出了一种多模态搜索方法,包括:获取相机采集的实时视频流;对实时视频流进行图像检测,得到图像检测结果;响应于确定图像检测结果中出现目标物体,获取麦克风采集的实时语音流;对实时语音流进行语音识别,得到目标文本;基于目标物体和目标文本进行搜索,得到多模态搜索结果。

3、第二方面,本公开实施例提出了一种多模态搜索装置,包括:视频流获取模块,被配置成获取相机采集的实时视频流;图像检测模块,被配置成对实时视频流进行图像检测,得到图像检测结果;语音流获取模块,被配置成响应于确定图像检测结果中出现目标物体,获取麦克风采集的实时语音流;语音识别模块,被配置成对实时语音流进行语音识别,得到目标文本;多模态搜索模块,被配置成基于目标物体和目标文本进行搜索,得到多模态搜索结果。

4、第三方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面描述的方法。

5、第四方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面描述的方法。

6、第五方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面描述的方法。

7、本公开实施例提供了一种通过在实时相机数据流和实时语音数据流中,提取出用户搜索意图,并进行多模态搜索的技术,实现了多模态信息的高效融合,达到更自然、高效的搜索体验。

8、本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种多模态搜索方法,包括:

2.根据权利要求1所述的方法,其中,所述对所述实时视频流进行图像检测,得到图像检测结果,包括:

3.根据权利要求1所述的方法,其中,所述对所述实时语音流进行语音识别,得到目标文本,包括:

4.根据权利要求2所述的方法,其中,所述响应于确定所述图像检测结果中出现目标物体,获取麦克风采集的实时语音流,包括:

5.根据权利要求4所述的方法,其中,在所述对所述实时语音流进行语音识别,得到目标文本之后,还包括:

6.根据权利要求5所述的方法,其中,在所述图像检测结果中出现新的目标物体时,保留所述收音按键附近显示的所述目标文本,以及所述目标文本附近显示的撤销按键。

7.根据权利要求6所述的方法,其中,所述基于所述目标物体和所述目标文本进行搜索,得到多模态搜索结果,包括:

8.根据权利要求1所述的方法,其中,在所述图像检测结果中出现目标物体之后,还包括:

9.一种多模态搜索装置,包括:

10.根据权利要求9所述的装置,其中,所述图像检测模块进一步被配置成:

11.根据权利要求9所述的装置,其中,所述语音识别模块进一步被配置成:

12.根据权利要求10所述的装置,其中,所述语音流获取模块进一步被配置成:

13.根据权利要求12所述的装置,其中,所述装置还包括:

14.根据权利要求13所述的装置,其中,在所述图像检测结果中出现新的目标物体时,保留所述收音按键附近显示的所述目标文本,以及所述目标文本附近显示的撤销按键。

15.根据权利要求14所述的装置,其中,所述多模态搜索模块进一步被配置成:

16.根据权利要求9所述的装置,其中,所述装置还包括:

17.一种电子设备,包括:

18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。

...

【技术特征摘要】

1.一种多模态搜索方法,包括:

2.根据权利要求1所述的方法,其中,所述对所述实时视频流进行图像检测,得到图像检测结果,包括:

3.根据权利要求1所述的方法,其中,所述对所述实时语音流进行语音识别,得到目标文本,包括:

4.根据权利要求2所述的方法,其中,所述响应于确定所述图像检测结果中出现目标物体,获取麦克风采集的实时语音流,包括:

5.根据权利要求4所述的方法,其中,在所述对所述实时语音流进行语音识别,得到目标文本之后,还包括:

6.根据权利要求5所述的方法,其中,在所述图像检测结果中出现新的目标物体时,保留所述收音按键附近显示的所述目标文本,以及所述目标文本附近显示的撤销按键。

7.根据权利要求6所述的方法,其中,所述基于所述目标物体和所述目标文本进行搜索,得到多模态搜索结果,包括:

8.根据权利要求1所述的方法,其中,在所述图像检测结果中出现目标物体之后,还包括:

9.一种多模态搜索装置,包括:

10.根据...

【专利技术属性】
技术研发人员:黄今冷国成马可欣郭维维
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1