System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于注视跟踪的来自屏幕内容的隐式校准制造技术_技高网

用于注视跟踪的来自屏幕内容的隐式校准制造技术

技术编号:39996809 阅读:8 留言:0更新日期:2024-01-09 02:51
本技术涉及用于注视跟踪的隐式校准的方法和系统。这可以包括由神经网络模块接收与显示屏上的呈现相关联的显示内容(1202)。神经网络模块还可以接收未校准的注视信息,其中,未校准的注视信息包括与显示屏上的显示内容的观看者注视相关联的未校准的注视轨迹(1204)。由神经网络模块将所选择的函数应用于未校准的注视信息和显示内容,以生成用户特定的注视函数(1206)。用户特定的注视函数具有一个或多个个性化参数。并且神经网络模块然后可以将用户特定的注视函数应用于未校准的注视信息,以生成与显示屏上的显示内容相关联的校准的注视信息(1208)。可替代地,可以为隐式注视校准创建训练和测试信息(1000)。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、注视跟踪可以用于确定用户当前在他或她的设备的显示屏上正在看什么。该信息可以用作交互式用户界面的一部分,例如以选择在显示屏上呈现的内容。然而,用户实际正在看的内容可能不是注视跟踪系统确定用户正在看的内容。未校准的系统可以使用设备特定的信息来辅助注视跟踪。过去,注视预测系统已经使用显式方法来校准特定个体。利用研究级眼睛跟踪器的这种个性化训练可能是时间和资源密集的,涉及针对特定个体评估的多个训练场景。这些方法可能不是有益的或最佳的,例如,取决于设备的类型和用户约束。


技术实现思路

1、本技术涉及用于注视跟踪的隐式校准的方法和系统。换句话说,在不向用户呈现显式校准步骤的情况下执行注视跟踪的校准。时空信息(屏幕内容)例如根据在空间域中跟踪眼睛的模型被动地呈现在显示屏上。端到端模型采用屏幕上的兴趣点的显著性图(热图)。正在显示的内容(例如,屏幕截图或正在显示屏幕上显示的内容的任何其他合适的表示)和未校准的注视信息被应用于模型以获得个性化的函数。这可以涉及例如使用神经网络来评估给定屏幕截图的整个注视轨迹。作为示例,可以利用真实网页或合成内容或数据。神经网络可以编码与显示的内容相关联的时间信息和在特定时间的未校准的注视,创建上下文向量,并解码以输出校正的注视函数。然后可以应用该输出个性化的函数来校准注视并识别用户在显示屏上实际正在看什么。本文描述的方法可以提供用于注视跟踪的更快的方法校准,其资源密集程度更低并且可以在各个用户设备上实现。因此,可以提供改进的校准。

2、经由隐式校准方法识别用户实际正在看什么具有各种益处,并且可以用于所有方式的应用。例如,该方法不需要针对给定用户的多个训练,并且可以用各种显示设备实时完成。作为示例,用户可以用他们的注视作为主要或唯一控制信号来操作用户界面或导航轮椅。因此,可以通过本文描述的方法来改进注视跟踪的校准。在其他情况下,隐式校准可以用作多模态交互的一部分以改进用户体验,诸如与语音、触摸和/或手势组合。其他情况可以包括虚拟现实(vr)环境,包括交互式游戏(例如,具有游戏控制台或手持式游戏设备)、使用不同类型的医疗装备的脑震荡诊断或其他医疗筛查,以及在车辆(诸如客车、公共汽车或货运卡车)的手动或部分自主驾驶模式下监视驾驶员的注意力。

3、根据一个方面,提供了执行用于注视跟踪的隐式注视校准的计算机实现的方法。该方法包括:由神经网络模块接收与显示屏上的呈现相关联的显示内容;由神经网络模块接收未校准的注视信息,未校准的注视信息包括与显示屏上的显示内容的观看者注视相关联的未校准的注视轨迹;由神经网络模块将所选择的函数应用于未校准的注视信息和显示内容,以生成用户特定的注视函数,用户特定的注视函数具有一个或多个个性化参数;以及由神经网络模块将用户特定的注视函数应用于未校准的注视信息,以生成与显示屏上的显示内容相关联的校准的注视信息。

4、所选择的函数可以是线性或多项式函数。未校准的注视信息还可以包括关于何时收集显示内容的时间戳信息。未校准的注视信息还可以包括屏幕取向信息、相机焦距、纵横比或分辨率信息中的至少一个。可以根据收集的数据来估计用户特定的注视函数的一个或多个个性化参数。

5、将所选择的函数应用于未校准的注视信息和显示内容以生成用户特定的注视函数可以包括:在神经网络的编码器块处生成时间信息和尺寸信息;根据神经网络的自我注意块中的时间信息和尺寸信息生成上下文向量;以及在神经网络的解码器块中将上下文向量应用于未校准的注视信息以生成校准的注视信息。时间信息可以包含与沿着显示屏的注视相关联的所选择的时间间隔。这里,可以通过查看注视测量的整个序列和与整个序列相关联的屏幕内容像素来对时间信息进行编码。将上下文向量应用于未校准的注视信息可以包括将上下文向量与来自未校准的注视信息的数据阵列相乘。可替代地或附加地,将上下文向量应用于未校准的注视信息可以包括使用神经网络的多个完全连接的层来应用未校准的注视信息和上下文向量。

6、显示内容可以包括合成内容。合成内容可以包括合成文本或合成图形信息中的至少一个。可替代地或附加地,合成内容可以对应于一组用户在所选择的数量的唯一用户界面上的注视轨迹的数据集。

7、根据另一方面,提供了一种包括一个或多个处理器和存储指令的一个或多个存储设备的系统,其中,当指令由一个或多个处理器执行时。一个或多个处理器实现用于注视跟踪的隐式注视校准的方法,包括:由一个或多个处理器的神经网络模块接收与显示屏上的呈现相关联的显示内容;由神经网络模块接收未校准的注视信息,未校准的注视信息包括与显示屏上的显示内容的观看者注视相关联的未校准的注视轨迹;由神经网络模块将所选择的函数应用于未校准的注视信息和显示内容,以生成用户特定的注视函数,用户特定的注视函数具有一个或多个个性化参数;以及由神经网络模块将用户特定的注视函数应用于未校准的注视信息,以生成与显示屏上的显示内容相关联的校准的注视信息。

8、根据本技术的另一方面,提供了一种创建用于隐式注视校准的训练和测试信息的计算机实现的方法。该方法包括:从存储器获取显示内容和校准的注视信息的集合,显示内容包括时间戳和显示数据,并且校准的注视信息包括与显示屏幕上的显示内容的观看者注视相关联的基准真值(ground truth)注视轨迹;将随机种子和显示内容以及校准的注视信息应用于变换;以及通过变换生成训练页面的集合和单独的测试页面的集合,该训练页面的集合和测试页面的集合各自包括屏幕数据和未校准的注视信息。

9、该组训练页面还可以包括校准的注视信息。校准的注视信息可以包括时间戳的集合、注视向量和眼睛位置信息。

10、根据该方法,在一个场景中,变换是φ(γ)变换,其中,γ表示一个或多个用户级参数,并且φ表示操作一个或多个用户级参数γ的一个或多个函数形式。在这种情况下,对于不同的页面观看,单个人将共享相同的φ和相同的γ参数。在示例中,φ和γ中的一个或两个是可变的,以生成训练页面和测试页面的扰动集合。可以通过改变校准的注视信息的平移的特定幅度和方向或者改变校准的注视信息的特定旋转量来形成训练页面和测试页面的扰动集合。

11、训练页面的集合和测试页面的集合可以是来自公共页面集合的非重叠子集。

12、在另一示例中,该方法还包括将该训练页面的集合应用于校准模型,其中,可显示的屏幕信息、未校准的注视信息和校准的注视信息是校准模型的输入,并且从校准模型输出校正的注视函数。

13、在又一示例中,该方法进一步包括将该测试页面的集合应用于校正的注视函数以生成校正的注视轨迹;以及针对基准真值注视轨迹来评估校正的注视轨迹。

14、并且根据本技术的另一方面,一种包括一个或多个指令的计算机程序产品,当执行时,该指令使得一个或多个处理器执行上述任何方法。

本文档来自技高网...

【技术保护点】

1.一种执行用于注视跟踪的隐式注视校准的计算机实现的方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述所选择的函数是线性函数或多项式函数。

3.根据权利要求1所述的方法,其中,所述未校准的注视信息还包括关于何时收集显示内容的时间戳信息。

4.根据权利要求1所述的方法,其中,所述未校准的注视信息还包括屏幕取向信息、相机焦距、纵横比或分辨率信息中的至少一个。

5.根据权利要求1所述的方法,其中,所述用户特定的注视函数的一个或多个个性化参数是根据收集的数据来估计的。

6.根据权利要求1所述的方法,其中,将所述所选择的函数应用于未校准的注视信息和显示内容以生成用户特定的注视函数包括:

7.根据权利要求6所述的方法,其中,所述时间信息包含与沿着显示屏的注视相关联的所选择的时间间隔。

8.根据权利要求7所述的方法,其中,所述时间信息是通过查看注视测量的整个序列和与整个序列相关联的屏幕内容像素来编码的。

9.根据权利要求6所述的方法,其中,将所述上下文向量应用于未校准的注视信息包括将上下文向量与来自未校准的注视信息的数据阵列相乘。

10.根据权利要求6所述的方法,其中,将所述上下文向量应用于未校准的注视信息包括使用神经网络的多个完全连接的层来应用未校准的注视信息和上下文向量。

11.根据权利要求1所述的方法,其中,所述显示内容包括合成内容。

12.根据权利要求11所述的方法,其中,所述合成内容包括合成文本或合成图形信息中的至少一个。

13.根据权利要求11所述的方法,其中,所述合成内容对应于一组用户在所选择的数量的唯一用户界面上的注视轨迹的数据集。

14.一种系统,包括一个或多个处理器和存储指令的一个或多个存储设备,其中,当所述指令由一个或多个处理器执行时,所述一个或多个处理器实现用于注视跟踪的隐式注视校准的方法,包括:

15.一种创建用于隐式注视校准的训练和测试信息的计算机实现的方法,所述方法包括:

16.根据权利要求15所述的方法,其中,所述训练页面的集合还包括校准的注视信息。

17.根据权利要求15所述的方法,其中,所述校准的注视信息包括时间戳的集合、注视向量和眼睛位置信息。

18.根据权利要求15所述的方法,其中:

19.根据权利要求18所述的方法,其中,Φ和γ中的一个或两个是可变的,以生成训练页面和测试页面的扰动集合。

20.根据权利要求19所述的方法,其中,训练页面和测试页面的扰动集合是通过改变校准的注视信息的平移的特定幅度和方向或者改变校准的注视信息的特定旋转量来形成的。

21.根据权利要求15所述的方法,其中,所述训练页面的集合和所述测试页面的集合是来自公共页面集合的非重叠子集。

22.根据权利要求15所述的方法,还包括:

23.根据权利要求22所述的方法,还包括:

24.一种包括一个或多个指令的计算机程序产品,当执行时,该指令使得一个或多个处理器执行根据权利要求1至13中任一项所述的方法或根据权利要求15至23中任一项所述的方法。

...

【技术特征摘要】
【国外来华专利技术】

1.一种执行用于注视跟踪的隐式注视校准的计算机实现的方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述所选择的函数是线性函数或多项式函数。

3.根据权利要求1所述的方法,其中,所述未校准的注视信息还包括关于何时收集显示内容的时间戳信息。

4.根据权利要求1所述的方法,其中,所述未校准的注视信息还包括屏幕取向信息、相机焦距、纵横比或分辨率信息中的至少一个。

5.根据权利要求1所述的方法,其中,所述用户特定的注视函数的一个或多个个性化参数是根据收集的数据来估计的。

6.根据权利要求1所述的方法,其中,将所述所选择的函数应用于未校准的注视信息和显示内容以生成用户特定的注视函数包括:

7.根据权利要求6所述的方法,其中,所述时间信息包含与沿着显示屏的注视相关联的所选择的时间间隔。

8.根据权利要求7所述的方法,其中,所述时间信息是通过查看注视测量的整个序列和与整个序列相关联的屏幕内容像素来编码的。

9.根据权利要求6所述的方法,其中,将所述上下文向量应用于未校准的注视信息包括将上下文向量与来自未校准的注视信息的数据阵列相乘。

10.根据权利要求6所述的方法,其中,将所述上下文向量应用于未校准的注视信息包括使用神经网络的多个完全连接的层来应用未校准的注视信息和上下文向量。

11.根据权利要求1所述的方法,其中,所述显示内容包括合成内容。

12.根据权利要求11所述的方法,其中,所述合成内容包括合成文本或合成图形信息中的至少一个。<...

【专利技术属性】
技术研发人员:D·拉贡G·普拉萨德P·菲鲁兹法姆J·皮
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1