一种基于眼动注视点的场景交互方法及其系统技术方案

技术编号：40928220 阅读：3 留言：0更新日期：2024-04-18 14:50

本发明专利技术公开一种基于眼动注视点的场景交互方法及其系统，其包括以下步骤：获取用户的眼动数据，进行眼动追踪；获取用户问询信息；根据用户视线注视方向获得场景图像，并根据眼动追踪生成带有注视点的场景图像；将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具中，生成对应的回复；上述技术方案采用眼动追踪在场景图像中标注注视点，可以更直观地展示用户的关注点和兴趣点，并与问询信息结合起来，可以更准确地理解用户的意图和需求，并通过生成式模型生成更有针对性的回复和服务，提升用户体验和交互效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及场景交互领域，尤其涉及一种基于眼动注视点的场景交互方法及其系统。

技术介绍

1、随着虚拟现实技术迅速发展，提供了多种通过眼动追踪引导识别物理世界物体的方法。在现有的虚拟现实场景交互中，场景交互系统会面临大量的不同类型的文件处理工作，如对用户对当前看到的场景进行诸如处理、分析，合并等工作。不同的处理方式需要使用不同的软件工具或命令行问询信息调用，需要在不同的软件工具环境下切换操作比较繁琐，现有的场景交互系统无法满足当前需求。另外也无法精确用户注视场景真实兴趣的目标物体，导致无法更准确地理解用户的意图和需求，生成更具针对性回复。

技术实现思路

1、为此，需要提供一种基于眼动注视点的场景交互方法，解决无法精确用户注视场景真实兴趣的目标物体，导致无法更准确地理解用户的意图和需求，生成更具针对性回复。

2、为实现上述目的，本专利技术提供了一种基于眼动注视点的场景交互方法，其包括以下步骤：

3、获取用户的眼动数据，进行眼动追踪；

4、获取用户问询信息；

5、根据用户视线注视方向获得场景图像，并根据眼动追踪生成带有注视点的场景图像；

6、将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具中，生成对应的回复。

7、进一步地，所述获取眼动数据，进行眼动追踪，包括以下步骤：

8、根据用户注视校准点，获取用户眼睛图像，通过跟踪算法对眼睛图像中瞳孔中心定位和场

9、将眼动数据与其注视的场景中的校准点和该校准点在场景相机中的对应像素点相关联，将映射关系参数储存，进行眼动追踪。

10、进一步地，所述根据用户注视校准点，获取用户眼睛图像，通过跟踪算法对眼睛图像中瞳孔中心定位和场景中的校准点进行计算获得用户的眼动数据，包括以下步骤：

11、凝视校准点，并按照头部动作编排指示转动头部，在转动头部的过程中维持相同姿态，并始凝视校准点；

12、头部动作编排的顺序为：左上，右上，右下，和左下；

13、完成后获得4个坐标对，每对坐标包含：瞳孔中心位置在眼睛图像上的坐标，对应该眼睛图像中正在凝视的校准点在场景图像上的坐标，即为用户的眼动数据；

14、所述将眼动数据与其注视的场景中的校准点和该校准点在场景相机中的对应像素点相关联，将映射关系参数储存，进行眼动追踪，包括以下步骤：

15、设某一时刻瞳孔中心在眼睛图像上的坐标记为(xp，yp)，将此刻该用户对应的凝视点在场景图像中的坐标记为(x，y)，则通过(xp，yp)计算(x，y)的公式如下：

16、

17、其中，a1至a8为校准得出的关于映射关系的参数，需要通过校准数据来计算，并在使用过程中被保存，并在下一次使用时需要通过重新校准来更新。将上述校准步骤后得到的4个坐标对记为：

18、(xp1，yp1)和(x1，y1)

19、(xp2，yp2)和(x2，y2)

20、(xp3，yp3)和(x3，y3)

21、(xp4，yp4)和(x4，y4)；

22、则可通过上述坐标对，通过以下公式计算出a1至a8的数值：

23、

24、进一步地，所述问询信息是通过用户的语音问询转化为问询信息时，还包括以下步骤：

25、所述获取用户的语音问询时，判断在语音问询录入时间是否超过设定的时间，若超过，则语音识别装置重新获取用户的语音问询；否则将语音问询并转化为问询信息。

26、进一步地，所述根据用户视线注视方向获得场景图像，并根据眼动追踪生成带有注视点的场景图像，包括以下步骤：

27、根据用户视线注视方向获取场景图像；

28、根据眼动追踪获得用户视线注视方向的注视点；

29、将所述注视点的位置标注在场景图像中，生成带有注视点的场景图像。

30、进一步地，所述将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具中，生成对应的回复前，还包括以下步骤：

31、判断问询信息和带有注视点的场景图像是否符合设定的输入标准，若符合，则将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具中，生成对应的回复；否则重新获取用户的问询信息，重新根据用户视线注视方向获取眼动数据和场景图像，生成带有注视点的场景图像。

32、进一步地，所述将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具中，生成对应的回复，包括以下步骤：

33、对问询信息进行优化；

34、对应注视点所在的目标区域使用图像分割技术对场景图像进行处理；

35、将优化后的问询信息、带有注视点的场景图像和图像分割结果作为输入，调用本地生成式模型、第三方生成式模型、矢量数据库或第三方互联网工具生成对应的回复。

36、进一步地，所述将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具中，若将问询信息和带有注视点的场景图像输入本地生成式模型或第三方的生成式模型中，生成对应的回复后，还包括以下步骤：

37、判断回复是否明确，若不明确，则调用矢量数据库或第三方互联网工具进行处理和分析获得更新回复，将更新后的回复返回给用户。

38、进一步地，将回复返回给用户后，还包括以下步骤：

39、将问询信息和带有注视点的场景图像和回复形成问询图文记录储存在矢量数据库中。

40、一种基于眼动注视点的场景交互系统，应用上述基于眼动注视点的场景交互方法，其包括：

41、智能终端：用于获取用户的眼动数据，进行眼动追踪；获取用户的语音问询并转化为问询信息；根据用户视线注视方向获得场景图像，并根据眼动追踪生成带有注视点的场景图像；将问询信息和带有注视点的场景图像传输给协调配置管理模块；接收协调配置管理模块传输的回复；

42、协调配置管理模块：接收智能终端传输的问询信息和带有注视点的场景图像，并传输给问询信息处理模块；接收问询信息处理模块传输的回复，并传输给智能终端或其他应用设备供用户获取回复信息；

43、问询信息处理模块：接收协调配置管理模块传输的问询信息和带有注视点的场景图像，并对问询信息进行优化和对应注视点所在的目标区域使用图像分割技术对场景图像进行处理；将优化后的问询信息和图像分割结果输入到本地生成式模型、第三方生成式模型、矢量数据库或第三方互联网工具中；接收回复，并传输给协调配置管理模块；

44、本地生成式模型、第三方生成式模型或第三方互联网工具：接收问询信息处理模块传输的优化后的问询信息和图像分割结果生成对应的回复，并将回复传输本文档来自技高网...

【技术保护点】

1.一种基于眼动注视点的场景交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于眼动注视点的场景交互方法，其特征在于，所述获取眼动数据，进行眼动追踪，包括以下步骤：

3.根据权利要求2所述的基于眼动注视点的场景交互方法，其特征在于，

4.根据权利要求1所述的基于眼动注视点的场景交互方法，其特征在于，所述问询信息是通过用户的语音问询转化为问询信息时，还包括以下步骤：

5.根据权利要求1所述的基于眼动注视点的场景交互方法，其特征在于，所述根据用户视线注视方向获得场景图像，并根据眼动追踪生成带有注视点的场景图像，包括以下步骤：

6.根据权利要求1所述的基于眼动注视点的场景交互方法，其特征在于，所述将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具中，生成对应的回复前，还包括以下步骤：

7.根据权利要求1所述的基于眼动注视点的场景交互方法，其特征在于，所述将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具

8.根据权利要求1所述的基于眼动注视点的场景交互方法，其特征在于，所述将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具中，若将问询信息和带有注视点的场景图像输入本地生成式模型或第三方的生成式模型中，生成对应的回复后，还包括以下步骤：

9.根据权利要求1-8所述的基于眼动注视点的场景交互方法，其特征在于，将回复返回给用户后，还包括以下步骤：

10.一种基于眼动注视点的场景交互系统，应用上述1-8中任意一项所述的基于眼动注视点的场景交互方法，其特征在于，包括：

...

【技术特征摘要】

1.一种基于眼动注视点的场景交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于眼动注视点的场景交互方法，其特征在于，所述获取眼动数据，进行眼动追踪，包括以下步骤：

3.根据权利要求2所述的基于眼动注视点的场景交互方法，其特征在于，

4.根据权利要求1所述的基于眼动注视点的场景交互方法，其特征在于，所述问询信息是通过用户的语音问询转化为问询信息时，还包括以下步骤：

6.根据权利要求1所述的基于眼动注视点的场景交互方法，其特征在于，所述将问询信息和带有注视点的场景图像输入本地生成式模型、第三方的生成式模型、矢量数据库或第三方互联网工具中，生成对应的回复...

【专利技术属性】
技术研发人员：艾韬，王森，王函，
申请(专利权)人：厦门元馨智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人