一种融合深度信息的多模态数据采集方法技术

技术编号：39841109 阅读：11 留言：0更新日期：2023-12-29 16:28

本发明专利技术涉及一种融合深度信息的多模态数据采集方法，一方面将深度信息引入到了双模态汉语语料库，由微软公司发布的第二代

全部详细技术资料下载

【技术实现步骤摘要】
一种融合深度信息的多模态数据采集方法

[0001]本专利技术属于多模态语料库
，具体涉及一种融合深度信息的多模态数据采集方法
。

技术介绍

[0002]作为计算机研究的重要方向之一，人工智能经过时间的推演，逐渐从最初的概念意识到如今如火如荼的发展，为人们展现了一个全新的社会生活面貌
。
在迅速发展的信息化技术面前，人工智能自然而然地成为人们追求的下一个目标
。
其出现并非偶然，而是人类社会发展到一定程度的科学技术产物
。
[0003]从最早的机器学习算法辅助人们处理海量数据
、
提取大数据中的隐藏信息，到机器人模仿人类的动作行为，甚至未来可能具备与人类相似的情感和意识，这些以前仅存在于科幻小说和电影中的事件正在逐步成为现实
。
人工智能正在深刻地影响着社会结构和人们的生活方式
。
[0004]当前阶段，人工智能的研究领域非常广泛，智能机器人
、
模式识别
、
图像识别
、/>语音识别
...

【技术保护点】

【技术特征摘要】
1.
一种融合深度信息的多模态数据采集方法，其特征在于：所述方法包括：
1)
将深度信息引入到了双模态汉语语料库，由微软公司发布的第二代
Kinect
多元传感器上开发构建多模态数据采集系统，并预先建立小规模的多模态语料库；
2)
设计语料自动选择算法，根据此算法选取出多模态数据，通过录制
、
对数据库进行数据分割
、
语音标注处理，建立汉语多模态语料库
。2.
根据权利要求1所述的融合深度信息的多模态数据采集方法，其特征在于：所述多模态数据采集系统包括：
(1)
麦克风阵列：由四个麦克风组成的四元线性麦克风阵列，这些麦克风阵列的分布是左右不对称的，左侧为1个，右侧为3个，麦克风阵列中包含四个相互独立的小型麦克风，每个麦克风之间相隔数厘米；利用内置的可以进行相关的数字信号处理的器件，
Kinect
能够对语音识别提供更好的技术支持；
(2)
彩色摄像头：它主要是用于采集在
Kinect
视野范围内的彩色图像视频流，基于捕获到的彩色图像，
Kinect
传感器可以实现面部识别和脸部追踪等功能；
(3)
红外投影机：它主要用来产生并主动发送光脉冲到物体上，光脉冲经过物体反射后到达红外摄像头，与红外摄像头共同生成场景的深度图像；
(4)
红外摄像头：它通过感知经过目标物反射以后的光脉冲信号，并进行光脉冲的相位差测量等处理与分析，最终产生
Kinect
视角下的深度图像；
(5)USB
总线组件：它用于传递相关语音信号
、
二维图像序列以及深度数据序列等多模态信息
。3.
根据权利要求1所述的融合深度信息的多模态数据采集方法，其特征在于：所述融合深度信息的多模态数据采集系统具体工作原理为：
Kinect
多元传感器的四元线性麦克风阵列探测到传感器正前方及左右各
50
度范围内的声音源，利用内置的数字信号处理算法，
Kinect
实现波束成形算法来更好地辨别声源的方向，其中的自动增益控制功能能够保证当人们与
Kinect
传感器的距离在由远及近地变化时，不会造成音频信号发生突变，使声音保持在同一响度水平；
Kinect
多元传感器捕捉到的深度图像上的每个像素点占
16
位浮点数，用来表示场景中的某一点与
Kinect
红外发射器之间的距离，
X
轴正方向为沿着
Kinect
红外发射器照射方向的左方向，
Y
轴正方向为沿着
Kinect
红外发射器照射方向的上方向，
Z
轴正方向为沿着
Kinect
红外发射器的照射方向，坐标单位均为米；结构：在图中，最上方的文本是说话人当前需要讲述的文本语料，紧接着在文本下方的是说话人发音的语音时域波形图，“BeamAngle”为
Kinect
利用波束成形技术定位的说话人语音发出位置与
Kinect
麦克风阵列形成的角度，图像的左下方为
Kinect
传感器实时追踪人脸并建立的由
1347
个特征点组成的三维人脸网格模型，图像的右下方为
Kinect
彩色摄像头拍摄的彩色视频流，在图像的右上方有两个按钮，分别表示录制的开始和结束，当说话人点击开始按钮之后，
Kinect
数据采集系统就开始捕捉说话人的音频
、

【专利技术属性】
技术研发人员：罗晨尹，杨天航，王耀峰，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人