【技术实现步骤摘要】
一种基于语义SLAM方法的语音控制型移动机器人
本专利技术涉及人工智能
,具体为一种基于语义SLAM方法的语音控制型移动机器人。
技术介绍
随着科学技术的发展,移动机器人开始越来越多地进入寻常百姓的日常生活,在未知复杂环境下完成各项智能服务任务,大大减轻人类的工作负担。现有的移动机器人技术中,为了构建出工作环境的高精度地图,移动机器人通常采取同时定位与地图构建(simultaneouslocalizationandmapping,SLAM)技术,采集外部传感器数据估计本体位姿状态,对周围环境进行地图构建;然而,传统的视觉SLAM算法基于简单的几何特征,所生成的地图只考虑到环境的几何信息和拓扑信息,缺乏环境中物体的语义信息,无法精确识别出环境中的独立物体,进而无法在一些复杂的需要精准识别地理环境中应用,导致移动机器人在现实生活中的应用收到了限制;同时,现有的移动机器人只有少数具备语音控制功能,但是其使用的语音识别声学模型存在对齐过程复杂、识别效果差、训练时间长等缺点,同样限制了移动机器人的应用范围。 >
技术实现思路
...
【技术保护点】
1.一种基于语义SLAM方法的语音控制型移动机器人,其包括控制器、远程服务器、视觉采集模块、语音采集模块;所述视觉采集模块、所述语音采集模块与所述控制器通信连接,其特征在于:/n所述远程服务器包括语义SLAM模块、语音识别模块;所述控制器与所述远程服务器通信连接;/n所述视觉采集模块获取环境的彩色信息和深度信息后发送给所述控制器,所述控制器实时地将彩色信息和深度信息以RGB图像序列和深度图像序列发送到远程服务器;所述远程服务器中的所述语义SLAM模块采用基于深度学习的语义SLAM方法,进行计算得到机器人的位姿估计结果,并构建出环境的三维语义地图,然后将所述位姿估计结果、所述 ...
【技术特征摘要】
1.一种基于语义SLAM方法的语音控制型移动机器人,其包括控制器、远程服务器、视觉采集模块、语音采集模块;所述视觉采集模块、所述语音采集模块与所述控制器通信连接,其特征在于:
所述远程服务器包括语义SLAM模块、语音识别模块;所述控制器与所述远程服务器通信连接;
所述视觉采集模块获取环境的彩色信息和深度信息后发送给所述控制器,所述控制器实时地将彩色信息和深度信息以RGB图像序列和深度图像序列发送到远程服务器;所述远程服务器中的所述语义SLAM模块采用基于深度学习的语义SLAM方法,进行计算得到机器人的位姿估计结果,并构建出环境的三维语义地图,然后将所述位姿估计结果、所述三维语义地图反馈给所述控制器;
所述语音采集模块采集输入语音后发送给所述控制器,所述控制器将语音序列发送到所述远程服务器;所述远程服务器中的所述语音识别模块采用基于深度卷积神经网络的语音控制方法,对语音序列进行识别,将识别出来的语音文字反馈给所述控制器;所述控制器将所述语音文字与预设控制指令进行对比识别,识别出语音控制命令;
所述控制器基于所述位姿估计结果、所述三维语义地图,按照所述语音控制命令,规划机器人的行为轨迹,并控制机器人执行动作。
2.根据权利要求1所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:所述语音识别模块的工作步骤,包括:
S1:特征提取;
在所述远程服务器的语音识别模块中,提取出反映所述原始语音信号特征的关键特征参数,形成待识别特征矢量序列;
S2:构建声音识别模型;
所述声音识别模型采用深度卷积神经网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的声学模型;
所述声音识别模型包括:依次连接的N个卷积块、两个全连接层、CTC损失函数层,其中:N为正整数;
所述卷积块中包括卷积层、池化层;如果N个所述卷积块共包括偶数个卷积层,则:从第一个卷积层开始每两个连续的卷积层后跟着一个池化层;如果N个所述卷积块共包括奇数个卷积层,则:从第一个卷积层开始每两个连续的卷积层后跟着一个池化层,最后三个卷积层连续操作后再进行一次池化层的池化操作;
S3:训练所述声音识别模型,获得训练好的所述声音识别模型;
S4:构建并训练语言模型,获得训练好的所述语言模型;
S5:语音识别;
将所述待识别特征矢量序列输入到训练好的所述声学模型中得到语音识别结果;
S6:文字转换;
将所述语音识别结果输入到训练好的所述语言模型中,进行语音解码运算,获得所述原始语音信号被识别后的语言文字,并反馈给所述控制器。
3.根据权利要求2所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:所述卷积块中第一层、第二层采用32个卷积核提取语音特征;第三层、第四层采用64个卷积核提取语音特征;第五层开始为多层连续的128个卷积核的卷积层提取语音更高层特征;所述卷积块中的卷积层的卷积核的尺寸全部设置为3×3;池化层为2×2的步长为2的最大池化操作。
4.根据权利要求2所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:所述CTC损失函数计算公式如下:
CTC(x)=-logP(μ|x)
其中:
表示输出label序列的概率是多少路径的概率和;
表示基于输入x的输出π路径的概率;
为softmax函数的计算公式;
x代表输入;
X=x1,x2,……,xT,代表输入序列,下标代表时间从1到T;
Y=y1,y2,……,yk,代表与X对应的输出;
yi=yi1,yi2,……,yik,代表输出序列第i帧的条件概率分布,其中i=1,2,……K;
π表示输出路径;
μ表示输出label序列;
π与μ之间是多对一的关系;
B表示路径到label序列的映射关系。
5.根据权利要求1所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:所述语义SLAM模块的工作步骤,包括:
SS1...
【专利技术属性】
技术研发人员:曹毅,翟明浩,张威,林苗,周辉,
申请(专利权)人:江南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。