融合深度信息的Kinect语音跟踪定位方法及系统技术方案

技术编号：38466740 阅读：28 留言：0更新日期：2023-08-11 14:43

本发明专利技术涉及语音识别技术领域，特别涉及一种融合深度信息的Kinect语音跟踪定位方法及系统，通过在空间坐标系中以Kinect原点为空间坐标系原点来构建人体空间定位坐标系；利用人体空间定位坐标系获取空间场景中的目标人体骨骼数据及Kinect麦克风声源信息，其中，目标人体骨骼数据包含人体头部骨骼点空间坐标和颈部骨骼点空间坐标；依据人体骨骼数据及运动学知识获取目标人体的方位值及其距Kinect原点的距离值，并根据声源信息及时延估计获取声源信号的方位值及其距Kinect原点的距离值；将人体和声源信号两者的方位值及距离值进行融合来定位识别声源。本发明专利技术可在室内多声源场景下Kinect语音识别时实现Kinect快速精准地跟踪定位出真正声源，具有较好的应用前景。具有较好的应用前景。具有较好的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
融合深度信息的Kinect语音跟踪定位方法及系统

[0001]本专利技术涉及语音识别
，特别涉及一种融合深度信息的Kinect语音跟踪定位方法及系统。

技术介绍

[0002]随着人机交互技术的快速发展，交互方式越来越多，捕捉肢体动作也成为不可缺少的部分，人体姿态识别就是计算机视觉领域一个重要的研究分支，同时，人们最原始的通过语言进行交流更加成为人们追崇的方式。Kinect作为小范围内人机交互的体感设备应运而生，主要应用到体感游戏、展览馆(博物馆、科技馆)等。Kinect不仅能够通过深度相机、彩色相机完成人体姿态识别，而且具有四个线性均匀分布的麦克风队列可以完成小范围内的语音识别。但是，声音在室内封闭环境，由于声的反射，导致Kinect面对多声源信息，无法识别出真正的发声点，使得语音识别不具有针对性，语音识别针对性大大降低，难于满足室内多声源场景的Kinect语音的定位识别问题。
[0003]针对复杂特定空间环境中Kinect语音识别，如基于Kinect的语音识别方法，主要通过对比Kinect四个麦克风获取到的语...

【技术保护点】

【技术特征摘要】
1.一种融合深度信息的Kinect语音跟踪定位方法，其特征在于，包含：在空间坐标系中以Kinect原点为空间坐标系原点来构建人体空间定位坐标系；利用人体空间定位坐标系获取空间场景中的目标人体骨骼数据及Kinect麦克风声源信息，其中，目标人体骨骼数据包含人体头部骨骼点空间坐标和颈部骨骼点空间坐标；依据人体骨骼数据及运动学知识获取目标人体的方位值及其距Kinect原点的距离值，并根据声源信息及时延估计获取声源信号的方位值及其距Kinect原点的距离值；将人体和声源信号两者的方位值及距离值进行融合来定位识别声源。2.根据权利要求1所述的融合深度信息的Kinect语音跟踪定位方法，其特征在于，在空间坐标系中以Kinect原点为空间坐标系原点来构建人体空间定位坐标系，包含：首先，将声源作为参考点，依据人体物理结构设置声源发出位置在人体头部骨骼点和颈部骨骼点的距离比例；然后，依据设置的人体头部骨骼点和颈部骨骼点的距离比例在空间坐标系中建立人体空间坐标点。3.根据权利要求1所述的融合深度信息的Kinect语音跟踪定位方法，其特征在于，利用人体空间定位坐标系获取空间场景中的目标人体骨骼数据，包含：通过Kinect深度相机获取目标时刻的骨骼数据；并针对目标时刻数据丢失的情形，利用变化量求平均值方法对同一时间戳中人体骨骼数据进行预测来获取数据丢失时刻连续帧人体骨骼点数据位移变化平均值，依据平均值及前一时刻人体骨骼点数据来弥补目标时刻人体骨骼数据。4.根据权利要求1所述的融合深度信息的Kinect语音跟踪定位方法，其特征在于，利用人体空间定位坐标系获取空间场景中Kinect麦克风声源信息，包含：首先，依据Kinect麦克风阵列获取麦克风之间探测声源的时延值；然后，依据时延值来计算空间定位坐标系中声源与坐标X轴之间夹角及声源到各麦克风之间的距离。5.根据权利要求1或3所述的融合深度信息的Kinect语音跟踪定位方法，其特征在于，依据人体骨骼数据及运动学知识获取目标人体的方位值及其距Kinect原点的距离值，包含：依据目标时刻人体骨骼数据中人体头部骨骼点空间坐标和颈部骨骼点空间坐标获取人体空间定位坐标，并利用人体...

【专利技术属性】
技术研发人员：郭同欢，丁窍，辛昌浩，孙红亮，余松海，王振东，熊先锐，孟旭，郝亮，牛智鹏，
申请(专利权)人：数字郑州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人