一种基于单目摄像头的带噪音语音识别系统及方法技术方案

技术编号:18050468 阅读:190 留言:0更新日期:2018-05-26 08:20
本发明专利技术公开一种基于单目摄像头的带噪音语音识别系统及方法,所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块;所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块;所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块;音频采集模块使用麦克风采集用户音频并输出至音频处理模块;所述音频处理模块对用户音频进行处理并输出至语音识别模块;所述语音模块使用数据融合策略对视频数据和音频数据进行融合,实现语音识别。本发明专利技术通过使用视频信息与音频信息两种特征,使用特征融合策略,有效避免如机器人马达,零件摩擦等造成的噪音干扰,提高了语音识别系统的准确率。

【技术实现步骤摘要】
一种基于单目摄像头的带噪音语音识别系统及方法
本专利技术涉及语音识别技术,具体设计一种基于单目摄像头的带噪音语音识别系统及方法。
技术介绍
随着人机交互技术发展,机器人被期望能拥有像人类一样的感知能力并能与人类合作共事。为实现这一目标,一些研究者使用语音技术来让机器人理解人类的语言。但是,运动状态中的机器人不可避免的会产生噪音,比如电动风扇和马达产生的噪音,因麦克风更靠近机器人,因此这些噪音相比用户的语言信息更易获取,造成了机器人语音识别效果不佳。申请公布号为CN201610615354.6的专利技术专利公开了基于自然语言的机器人控制系统及控制方法,方法包括接收用户输入的自然语言声波信号;将自然语言声波信号转换为语言文字信息;对语言文字信息进行分析分解,信息分解结果为根据不同词性将所述语言文字信息分类而组合成的词语集合;根据预置的词汇库对所述词语集合进行语义匹配,获取所述词语集合的行为匹配结果;将行为匹配结果转换成语音输出;通过人机对话模式对行为匹配结果进行确认;对确认的行为匹配结果进行行为分解,并依照行为分解结果控制机器人的执行。申请公布号为CN201410771233.1的专利技术专利公开了一种机器人语音识别方法,包含步骤1:打开音频传感器,采集音频信号;步骤2:对采集到的音频信号,进行模数转换;步骤3:将转换后代数字信号送人模式识别缓冲区;步骤4:对模式识别缓冲区中的信号按照振幅做离散化处理;步骤5:将按照振幅做离散化处理的数据,在模式识别数据库中进行匹配算法;步骤6:对所有命令依据匹配算法的结果进行概率运算;步骤7:按照概率从大到小的方式排序;步骤8:将概率最大的命令作为结果输出。上述专利技术专利中,都是通过对音频信息进行加工处理,来提高语音识别效果,但噪音仍参与上述的加工处理过程,因此造成语音识别的效果仍然有较大误差。
技术实现思路
本专利技术目的在于克服传统方法中的不足,提供一种基于单目摄像头的带噪音语音识别系统及方法。本专利技术解决上述技术问题的技术方案为:本专利技术的目的在于提高一种基于单目摄像头的带噪音语音识别系统,其中,所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块;所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块;所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块;音频采集模块使用麦克风采集用户音频并输出至音频处理模块;所述音频处理模块对用户音频进行处理并输出至语音识别模块;所述语音模块使用数据融合策略对视频数据和音频数据进行融合,实现语音识别。本专利技术的另一个目的还在于提供一种基于单目摄像头的带噪音语音识别方法,其中,所述基于单目摄像头的带噪音语音识别方法包括以下步骤:S1,获取视频源;S2,使用图像处理采集唇区,及获取嘴唇变化特征;S3,获取音频信息,及提取音频特征;S4,进行多流特征融合;S5,使用HMM模型建模并得出结果。进一步地,本专利技术步骤S2中,具体包括以下步骤:S21对图像进行色彩空间转换,S22肤色阈值处理,S23图像去噪处理,S24图像二值处理,S25开运算处理,S26嘴唇区域定位并计算特征。进一步地,本专利技术步骤S4中,进行多流特征是使用线性插值发完成音频和视频信息的匹配。进一步地,本专利技术步骤S5中,通过HMM(出自论文《隐马尔可夫模型及其应用》,作者王志堂,蔡淋波,湖南科技学院学报,2009年04期)完成建模和识别效果。本专利技术的有益效果在于,通过使用视频信息与音频信息两种特征,使用特征融合策略,有效避免如机器人马达,零件摩擦等造成的噪音干扰,提高了机器人语音识别系统的准确率。附图说明图1是本专利技术的基于单目摄像头的带噪音语音识别系统的流程图。图2是本专利技术的基于单目摄像头的带噪音语音识别方法的流程图。图3是本专利技术的基于单目摄像头的带噪音语音识别系统的示意图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。如图1所示,图1为本专利技术的一种基于单目摄像头的带噪音语音识别系统流程图,其中,所述系统包括图像采集模块10、视觉处理模块20、音频采集模块30、音频处理模块40、语音识别模块50;所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块;所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块;音频采集模块使用麦克风采集用户音频并输出至音频处理模块;所述音频处理模块对用户音频进行处理并输出至语音识别模块;所述语音模块使用数据融合策略对视频数据和音频数据进行融合,实现语音识别。如图2所示,图2为本专利技术的一种基于单目摄像头的带噪音语音识别方法的流程图,具体包括以下步骤:S1,获取视频源。使用单目摄像头对人脸区域进行图像捕捉,获取人脸区域的图像。S2,使用图像处理采集唇区,及获取嘴唇变化特征。对图像进行预处理,具体包括:S21对图像进行色彩空间转换,S22肤色阈值处理,S23图像去噪处理,S24图像二值处理,S25开运算处理,S26嘴唇区域定位并计算特征,具体描述如下:S21,色彩空间转换:一般情况下,图片都是RGB色彩模型下的。但是RGB三分量间常有很高的相关性,直接利用这些分量往往不能达到预想的效果,所以需要将RGB图像转换到HSV色彩模型下。其中,H、S、V的值可分别由公式(2)、(3)、(4)得到。V=MAX(4)以上公式(1)中MAX、MIN分别是RGB图像的最大值、最小值,H、S、V分别是HSV图像的H值、S值和V值。转换到HSV色彩空间后,通过取H值的0~180进行阈值分割,则可获取到所需的二值图像。S22,肤色阈值处理:利用OpenCV的otsu自适应阈值分割。程序流程为:计算直方图并归一化histogram;计算图像灰度均值avgValue;计算直方图的零阶w[i]和一级矩u[i]计算并找到最大的类间方差(between-classvariance)。variance[i]=(avgValue*w[i]-u[i])*(avgValue*w[i]-u[i])/(w[i]*(1-w[i]))对应此最大方差的灰度值即为要找的阈值。S23,图像去噪处理:现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,故需对图像进行去噪处理。本实施例使用团块面积阈值法进行图像滤波去噪声,去除图像中目标对象周围的噪声,过程为:采用二值数学形态学中的连通组元提取算法来求取团块的面积,小于阈值的团块为噪声,将该团块的像素点灰度值都设成255即可去除噪声。S24,图像二值处理:进行图像二值化,将图像的前景与背景进行分割。图像二值化指将图像上的像素点的灰度值设置为0或255,使得整个图像呈现出明显的黑白效果。图像二值化是图像分析与处理中最常见最重要的处理手段,其使得图像中数据量大为减少,从而能凸显出目标的轮廓。在OpenCV中,可用关键函数cvThreshold()实现图像的二值化。S25,开运算处理:为了消除二值化后不连通的散点同时填充手部中的缺失点,从而达到较好的图像效果,使用形态学方法中的开运算,即先腐蚀后膨胀。设f(x,y)是输入图像,b(x,y)是结构元素,用结构元素b对输入图像f进行腐蚀和膨胀运算分别定义为:(f⊙b)(s,t)=min{f(s-x,t-y)+b本文档来自技高网
...
一种基于单目摄像头的带噪音语音识别系统及方法

【技术保护点】
一种基于单目摄像头的带噪音语音识别系统,其特征在于,所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块;所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块;所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块;音频采集模块使用麦克风采集用户音频并输出至音频处理模块;所述音频处理模块对用户音频进行处理并输出至语音识别模块;所述语音模块使用数据融合策略对视频数据和音频数据进行融合,实现语音识别。

【技术特征摘要】
1.一种基于单目摄像头的带噪音语音识别系统,其特征在于,所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块;所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块;所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块;音频采集模块使用麦克风采集用户音频并输出至音频处理模块;所述音频处理模块对用户音频进行处理并输出至语音识别模块;所述语音模块使用数据融合策略对视频数据和音频数据进行融合,实现语音识别。2.一种应用权利要求1所述的一种基于单目摄像头的带噪音语音识...

【专利技术属性】
技术研发人员:梁鹏郝刚吴玉婷
申请(专利权)人:广东技术师范学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1