当前位置: 首页 > 专利查询>天津大学专利>正文

一种融合深度信息的多模态数据采集方法技术

技术编号:39841109 阅读:11 留言:0更新日期:2023-12-29 16:28
本发明专利技术涉及一种融合深度信息的多模态数据采集方法,一方面将深度信息引入到了双模态汉语语料库,由微软公司发布的第二代

【技术实现步骤摘要】
一种融合深度信息的多模态数据采集方法


[0001]本专利技术属于多模态语料库
,具体涉及一种融合深度信息的多模态数据采集方法


技术介绍

[0002]作为计算机研究的重要方向之一,人工智能经过时间的推演,逐渐从最初的概念意识到如今如火如荼的发展,为人们展现了一个全新的社会生活面貌

在迅速发展的信息化技术面前,人工智能自然而然地成为人们追求的下一个目标

其出现并非偶然,而是人类社会发展到一定程度的科学技术产物

[0003]从最早的机器学习算法辅助人们处理海量数据

提取大数据中的隐藏信息,到机器人模仿人类的动作行为,甚至未来可能具备与人类相似的情感和意识,这些以前仅存在于科幻小说和电影中的事件正在逐步成为现实

人工智能正在深刻地影响着社会结构和人们的生活方式

[0004]当前阶段,人工智能的研究领域非常广泛,智能机器人

模式识别

图像识别
/>语音识别
...

【技术保护点】

【技术特征摘要】
1.
一种融合深度信息的多模态数据采集方法,其特征在于:所述方法包括:
1)
将深度信息引入到了双模态汉语语料库,由微软公司发布的第二代
Kinect
多元传感器上开发构建多模态数据采集系统,并预先建立小规模的多模态语料库;
2)
设计语料自动选择算法,根据此算法选取出多模态数据,通过录制

对数据库进行数据分割

语音标注处理,建立汉语多模态语料库
。2.
根据权利要求1所述的融合深度信息的多模态数据采集方法,其特征在于:所述多模态数据采集系统包括:
(1)
麦克风阵列:由四个麦克风组成的四元线性麦克风阵列,这些麦克风阵列的分布是左右不对称的,左侧为1个,右侧为3个,麦克风阵列中包含四个相互独立的小型麦克风,每个麦克风之间相隔数厘米;利用内置的可以进行相关的数字信号处理的器件,
Kinect
能够对语音识别提供更好的技术支持;
(2)
彩色摄像头:它主要是用于采集在
Kinect
视野范围内的彩色图像视频流,基于捕获到的彩色图像,
Kinect
传感器可以实现面部识别和脸部追踪等功能;
(3)
红外投影机:它主要用来产生并主动发送光脉冲到物体上,光脉冲经过物体反射后到达红外摄像头,与红外摄像头共同生成场景的深度图像;
(4)
红外摄像头:它通过感知经过目标物反射以后的光脉冲信号,并进行光脉冲的相位差测量等处理与分析,最终产生
Kinect
视角下的深度图像;
(5)USB
总线组件:它用于传递相关语音信号

二维图像序列以及深度数据序列等多模态信息
。3.
根据权利要求1所述的融合深度信息的多模态数据采集方法,其特征在于:所述融合深度信息的多模态数据采集系统具体工作原理为:
Kinect
多元传感器的四元线性麦克风阵列探测到传感器正前方及左右各
50
度范围内的声音源,利用内置的数字信号处理算法,
Kinect
实现波束成形算法来更好地辨别声源的方向,其中的自动增益控制功能能够保证当人们与
Kinect
传感器的距离在由远及近地变化时,不会造成音频信号发生突变,使声音保持在同一响度水平;
Kinect
多元传感器捕捉到的深度图像上的每个像素点占
16
位浮点数,用来表示场景中的某一点与
Kinect
红外发射器之间的距离,
X
轴正方向为沿着
Kinect
红外发射器照射方向的左方向,
Y
轴正方向为沿着
Kinect
红外发射器照射方向的上方向,
Z
轴正方向为沿着
Kinect
红外发射器的照射方向,坐标单位均为米;结构:在图中,最上方的文本是说话人当前需要讲述的文本语料,紧接着在文本下方的是说话人发音的语音时域波形图,“BeamAngle”为
Kinect
利用波束成形技术定位的说话人语音发出位置与
Kinect
麦克风阵列形成的角度,图像的左下方为
Kinect
传感器实时追踪人脸并建立的由
1347
个特征点组成的三维人脸网格模型,图像的右下方为
Kinect
彩色摄像头拍摄的彩色视频流,在图像的右上方有两个按钮,分别表示录制的开始和结束,当说话人点击开始按钮之后,
Kinect
数据采集系统就开始捕捉说话人的音频

【专利技术属性】
技术研发人员:罗晨尹杨天航王耀峰
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1