融合深度信息的Kinect语音跟踪定位方法及系统技术方案

技术编号:38466740 阅读:10 留言:0更新日期:2023-08-11 14:43
本发明专利技术涉及语音识别技术领域,特别涉及一种融合深度信息的Kinect语音跟踪定位方法及系统,通过在空间坐标系中以Kinect原点为空间坐标系原点来构建人体空间定位坐标系;利用人体空间定位坐标系获取空间场景中的目标人体骨骼数据及Kinect麦克风声源信息,其中,目标人体骨骼数据包含人体头部骨骼点空间坐标和颈部骨骼点空间坐标;依据人体骨骼数据及运动学知识获取目标人体的方位值及其距Kinect原点的距离值,并根据声源信息及时延估计获取声源信号的方位值及其距Kinect原点的距离值;将人体和声源信号两者的方位值及距离值进行融合来定位识别声源。本发明专利技术可在室内多声源场景下Kinect语音识别时实现Kinect快速精准地跟踪定位出真正声源,具有较好的应用前景。具有较好的应用前景。具有较好的应用前景。

【技术实现步骤摘要】
融合深度信息的Kinect语音跟踪定位方法及系统


[0001]本专利技术涉及语音识别
,特别涉及一种融合深度信息的Kinect语音跟踪定位方法及系统。

技术介绍

[0002]随着人机交互技术的快速发展,交互方式越来越多,捕捉肢体动作也成为不可缺少的部分,人体姿态识别就是计算机视觉领域一个重要的研究分支,同时,人们最原始的通过语言进行交流更加成为人们追崇的方式。Kinect作为小范围内人机交互的体感设备应运而生,主要应用到体感游戏、展览馆(博物馆、科技馆)等。Kinect不仅能够通过深度相机、彩色相机完成人体姿态识别,而且具有四个线性均匀分布的麦克风队列可以完成小范围内的语音识别。但是,声音在室内封闭环境,由于声的反射,导致Kinect面对多声源信息,无法识别出真正的发声点,使得语音识别不具有针对性,语音识别针对性大大降低,难于满足室内多声源场景的Kinect语音的定位识别问题。
[0003]针对复杂特定空间环境中Kinect语音识别,如基于Kinect的语音识别方法,主要通过对比Kinect四个麦克风获取到的语音信息来确定声源方位,进一步对确定下来的声源信息进行降噪、增强等处理,最终通过模板匹配算法实现的语音识别,但其通过四个麦克风对比法确定声源位置,具有对比标准难以统一、麦克风获取语音信息不统一等问题。又如融合深度信息汉语多模态语料库的语音识别方法,利用Kinect彩色相机、深度相机获取到说话人的彩色图像和深度图像,对采集的多模态数据进行预处理之后提取多模态特征,构建融合深度信息的汉语多模态语料库,进而进行多模态的语音识别;该方法虽然充分利用了深度相机等多模态数据,但是出现过程比对复杂,识别速度降低,识别预料库小,具有语音识别局限性。再如,一种机器人吵杂语音识别装置及方法,用于复杂特定的语音识别场景,通过重构侧唇数据,进行多流数据融合,通过HMM模型建模实现语音识别,一定程度提供了语音识别效率,但是重构侧唇数据,不仅具有时间复杂度高,而且局限于短词汇的识别。

技术实现思路

[0004]为此,本专利技术提供一种融合深度信息的Kinect语音跟踪定位方法及系统,解决有室内多声源场景下Kinect语音识别时Kinect无法跟踪定位出真正声源的问题。
[0005]按照本专利技术所提供的设计方案,提供一种融合深度信息的Kinect语音跟踪定位方法,包含:
[0006]在空间坐标系中以Kinect原点为空间坐标系原点来构建人体空间定位坐标系;
[0007]利用人体空间定位坐标系获取空间场景中的目标人体骨骼数据及Kinect麦克风声源信息,其中,目标人体骨骼数据包含人体头部骨骼点空间坐标和颈部骨骼点空间坐标;
[0008]依据人体骨骼数据及运动学知识获取目标人体的方位值及其距Kinect原点的距离值,并根据声源信息及时延估计获取声源信号的方位值及其距Kinect原点的距离值;
[0009]将人体和声源信号两者的方位值及距离值进行融合来定位识别声源。
[0010]作为本专利技术融合深度信息的Kinect语音跟踪定位方法,进一步地,在空间坐标系中以Kinect原点为空间坐标系原点来构建人体空间定位坐标系,包含:
[0011]首先,将声源作为参考点,依据人体物理结构设置声源发出位置在人体头部骨骼点和颈部骨骼点的距离比例;
[0012]然后,依据设置的人体头部骨骼点和颈部骨骼点的距离比例在空间坐标系中建立人体空间坐标点。
[0013]作为本专利技术融合深度信息的Kinect语音跟踪定位方法,进一步地,利用人体空间定位坐标系获取空间场景中的目标人体骨骼数据,包含:通过Kinect深度相机获取目标时刻的骨骼数据;并针对目标时刻数据丢失的情形,利用变化量求平均值方法对同一时间戳中人体骨骼数据进行预测来获取数据丢失时刻连续帧人体骨骼点数据位移变化平均值,依据平均值及前一时刻人体骨骼点数据来弥补目标时刻人体骨骼数据。
[0014]作为本专利技术融合深度信息的Kinect语音跟踪定位方法,进一步地,利用人体空间定位坐标系获取空间场景中Kinect麦克风声源信息,包含:
[0015]首先,依据Kinect麦克风阵列获取麦克风之间探测声源的时延值;
[0016]然后,依据时延值来计算空间定位坐标系中声源与坐标X轴之间夹角及声源到各麦克风之间的距离。
[0017]作为本专利技术融合深度信息的Kinect语音跟踪定位方法,进一步地,依据人体骨骼数据及运动学知识获取目标人体的方位值及其距Kinect原点的距离值,包含:依据目标时刻人体骨骼数据中人体头部骨骼点空间坐标和颈部骨骼点空间坐标获取人体空间定位坐标,并利用人体空间定位坐标计算目标人体的方位值及其距Kinect原点的距离值。
[0018]作为本专利技术融合深度信息的Kinect语音跟踪定位方法,进一步地,根据声源信息及时延估计获取声源信号的方位值及其距Kinect原点的距离值,包含:利用声源与坐标X轴之间夹角及声源到各麦克风之间的距离来计算声源信号的方位值及其距Kinect原点的距离值。
[0019]作为本专利技术融合深度信息的Kinect语音跟踪定位方法,进一步地,将人体和声源信号两者的方位值及距离值进行融合来定位识别声源,包含:利用预设数据规则来对人体和声源信号两者的方位值及距离值数据进行融合处理,将符合预设数据规则的声源判定为语音跟踪定位的目标声源,其中,预设数据融合规则表示为:d

和θ

分别表示预设距离阈值和预设方位角阈值,d1为人体距离值,θ1为人体方位值,d为声源距离值,θ为声源方位值。
[0020]进一步地,本专利技术还提供一种融合深度信息的Kinect语音跟踪定位系统,包含:数据获取模块、数据处理模块和数据输出模块,其中,
[0021]数据获取模块,用于在空间坐标系中以Kinect原点为空间坐标系原点来构建人体空间定位坐标系;利用人体空间定位坐标系获取空间场景中的目标人体骨骼数据及Kinect麦克风声源信息,其中,目标人体骨骼数据包含人体头部骨骼点空间坐标和颈部骨骼点空间坐标;
[0022]数据处理模块,用于依据人体骨骼数据及运动学知识获取目标人体的方位值及其距Kinect原点的距离值,并根据声源信息及时延估计获取声源信号的方位值及其距Kinect
原点的距离值;
[0023]数据输出模块,用于将人体和声源信号两者的方位值及距离值进行融合来定位识别声源。
[0024]本专利技术的有益效果:
[0025]本专利技术通过Kinect语音数据和骨骼数据的采集,提取语音数据的方位信息和骨骼数据方位信息,依据融合定位策略得到准确的声源数据,可实现室内多声源场景下Kinect语音快速精准识别定位,为后期Kinect语音识别在人机交互中提高针对性识别提供便利,具有较好的应用前景。
附图说明:
[0026]图1为实施例中融合深度信息的Kinect语音跟踪定位流程示意;
[0027]图2为实施例中Kinect场景示意;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合深度信息的Kinect语音跟踪定位方法,其特征在于,包含:在空间坐标系中以Kinect原点为空间坐标系原点来构建人体空间定位坐标系;利用人体空间定位坐标系获取空间场景中的目标人体骨骼数据及Kinect麦克风声源信息,其中,目标人体骨骼数据包含人体头部骨骼点空间坐标和颈部骨骼点空间坐标;依据人体骨骼数据及运动学知识获取目标人体的方位值及其距Kinect原点的距离值,并根据声源信息及时延估计获取声源信号的方位值及其距Kinect原点的距离值;将人体和声源信号两者的方位值及距离值进行融合来定位识别声源。2.根据权利要求1所述的融合深度信息的Kinect语音跟踪定位方法,其特征在于,在空间坐标系中以Kinect原点为空间坐标系原点来构建人体空间定位坐标系,包含:首先,将声源作为参考点,依据人体物理结构设置声源发出位置在人体头部骨骼点和颈部骨骼点的距离比例;然后,依据设置的人体头部骨骼点和颈部骨骼点的距离比例在空间坐标系中建立人体空间坐标点。3.根据权利要求1所述的融合深度信息的Kinect语音跟踪定位方法,其特征在于,利用人体空间定位坐标系获取空间场景中的目标人体骨骼数据,包含:通过Kinect深度相机获取目标时刻的骨骼数据;并针对目标时刻数据丢失的情形,利用变化量求平均值方法对同一时间戳中人体骨骼数据进行预测来获取数据丢失时刻连续帧人体骨骼点数据位移变化平均值,依据平均值及前一时刻人体骨骼点数据来弥补目标时刻人体骨骼数据。4.根据权利要求1所述的融合深度信息的Kinect语音跟踪定位方法,其特征在于,利用人体空间定位坐标系获取空间场景中Kinect麦克风声源信息,包含:首先,依据Kinect麦克风阵列获取麦克风之间探测声源的时延值;然后,依据时延值来计算空间定位坐标系中声源与坐标X轴之间夹角及声源到各麦克风之间的距离。5.根据权利要求1或3所述的融合深度信息的Kinect语音跟踪定位方法,其特征在于,依据人体骨骼数据及运动学知识获取目标人体的方位值及其距Kinect原点的距离值,包含:依据目标时刻人体骨骼数据中人体头部骨骼点空间坐标和颈部骨骼点空间坐标获取人体空间定位坐标,并利用人体...

【专利技术属性】
技术研发人员:郭同欢丁窍辛昌浩孙红亮余松海王振东熊先锐孟旭郝亮牛智鹏
申请(专利权)人:数字郑州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1