基于视觉识别和语音识别的人与大屏多模态自然交互方法技术

技术编号：27974334 阅读：51 留言：0更新日期：2021-04-06 14:08

本发明专利技术提供了一种基于视觉识别和语音识别的人与大屏多模态自然交互方法。所述方法的工作原理包括：图像感知模块、图像识别模块、图像分析模块；声音感知模块、语音识别模块、语音分析模块；交互窗口模块、交互位置模块、交互命模块；视频信号源、视频交互矩阵、显示大屏。系统通过感知、识别、分析用户的手指（或手臂）的动作以及语音信息，结合系统预设的交互初始位置、动作交互指令和语音交互指令信息，获得人与大屏上的显示内容进行交互时所需的交互位置和交互指令信息，生成交互命令，驱动视频信号源设备和视频交互矩阵输出相应显示内容的视频信号，在大屏上进行显示，从而实现人与大屏的2维或3维空间的复杂显示内容的多模态自然交互。

全部详细技术资料下载

【技术实现步骤摘要】
基于视觉识别和语音识别的人与大屏多模态自然交互方法
本专利技术涉及人机交互中的人与大屏幕自然交互
，提供了一种基于视觉识别和语音识别的人与大屏多模态自然交互方法。
技术介绍
目前市场上有几种面对大屏上的显示内容进行直接交互的方法，如面对大屏的笔触、教鞭触控、遥控交互等，大多需要手中借助特制的交互工具，如交互笔、交互教鞭、交互遥控器等，进行操作，不能做到完全的人与大屏的自然交互。如采用手进行的手触、采用交互笔进行的笔触、采用交互教鞭进行的教鞭触控，由于操作者需要站在离大屏很近的地方进行操作，当屏幕很大时，使用者看屏幕非常不方便，并存在很多够不到的交互盲区；如采用遥控交互方式，虽然可以离开屏幕一段距离进行交互，但是如果遥控器上的功能键较少，则很多复杂交互功能无法实现；如果遥控器上的功能键很多，由于遥控器上的空间很小，则会出现操作非常不便的问题，从而影响到体验效果和交互速度；采用体感交互的方式，由于目前的体感技术还不够完善，只能实现少数简单的手势动作交互，且无法对大屏上的交互内容进行定位，因此也无法满足对大屏多信号源多种内容...

【技术保护点】
1.基于视觉识别和语音识别的人与大屏多模态自然交互方法，其特征在于，所述方法的系统工作流程主要包括：光学感知模块，通过实时光学图像获取场景产生的2D或3D视觉信息；图像识别模块，从所获视觉信息中提取用户的手指和手臂的2D或3D位置和运动信息；图像分析模块，根据系统预设的信号源光标初始位置信息库和动作交互指令库模型，从所述用户的手指和手臂的2D或3D位置和运动信息中提取人与大屏上的显示内容进行交互时产生的交互位置信息和动作交互指令信息；声音感知模块，通过麦克风阵列获取场景的声音信息；语音识别模块，通过所述声音信息提取用户的语音文字信息；语音分析模块，根据系统预设的语音交互指令模型库，从所述语音文...

【技术特征摘要】
1.基于视觉识别和语音识别的人与大屏多模态自然交互方法，其特征在于，所述方法的系统工作流程主要包括：光学感知模块，通过实时光学图像获取场景产生的2D或3D视觉信息；图像识别模块，从所获视觉信息中提取用户的手指和手臂的2D或3D位置和运动信息；图像分析模块，根据系统预设的信号源光标初始位置信息库和动作交互指令库模型，从所述用户的手指和手臂的2D或3D位置和运动信息中提取人与大屏上的显示内容进行交互时产生的交互位置信息和动作交互指令信息；声音感知模块，通过麦克风阵列获取场景的声音信息；语音识别模块，通过所述声音信息提取用户的语音文字信息；语音分析模块，根据系统预设的语音交互指令模型库，从所述语音文字信息中提取用户的语音交互指令信息；窗口交互模块，从所述的动作交互指令或语音交互指令中获取交互窗口信息（指具体某个大屏信号显示窗口）、交互窗口指令信息（指大屏信号显示窗口的放大、缩小、漫游、切换、打开或关闭等）、和光标的初始位置信息；交互位置模块，根据用户手指或手臂的移动和大屏上的光标的初始位置，确定光标的交互位置信息；交互命令模块：根据光标的交互位置信息、动作交互指令或语音交互指令，生成交互命令信息，用来驱动视频信号源设备改变显示内容，或驱动视频交互矩阵改变视频信号的输出方式；视频信号源：用来输出需要显示的视频信号；视频交互矩阵，根据交互命令将视频信号源的视频信号发给显示大屏；显示大屏，显示视频交互矩阵传来的多路视频信号。

2.根据权利1所述的基于视觉识别和语音识别的人与大屏多模态自然交互方法，其特征在于，优选地，光学感知模块和图像识别模块采用微软公司开发的AzureKinect，该产品是将深度感应器、高清相机和空间麦克风阵列结合在一起的企业应用方案，它以3D的方式跟踪移动中的人体，从而获得完整清晰和唯一性鉴别的多骨骼身体跟踪能力，继而能对手指和手臂动作进行准确跟踪，将用户的手指位置信息和手臂动作信息通过有线或无线方式发给下位机。

3.根据权利1所述的基于视觉识别和语音识别的人与大屏多模态自然交互方法，其特征在于，优选地，声音感知模块和语音识别模块采用科大讯飞公司或百度公司开发的语音感知和识别产品，该产品通过麦克风阵列获取用户的语音信号，并将其识别和转化为语音文字信息，通过有线或无线方式发给下位机。

4.根据权利1所述的基于视觉识别和语音识别的人与大屏多模态自然交互方法，其特征在于，优选地，图像分析模块、语音分析模块、窗口交互模块、交互位置模块、交互命令模块由自然交互服务器中的不同软件功能模块实现，自然交互服务器为一台计算机。

5.根据权利1所述的基于视觉识别和语音识别的人与大屏多模态自然交互方法，其特征在于，图像分析模块所对应的计算机软件，根据系统预设的信号源光标初始位置信息库和动作交互指令库模型，从所述用户的手指和手臂的2D或3D位置和运动信息中提取人与大屏上的显示内容进行交互时产生的交互位置信息和动作交互指令信息；语音分析模块所对应的计算机软件，根据系统预设的语音交互指令模型库，从所述语音文字信息中提取用户的语音交互指令信息；窗口交互模块所对应的计算机软件，从所述的动作交互指令或语音交互指令中获取交互窗口信息（指具体某个大屏信号显示窗口）、交互窗口指令信息（指大屏信号显示窗口的放大、缩小、漫游、切换、打开或...

【专利技术属性】
技术研发人员：丁建华，
申请(专利权)人：丁建华，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人