基于连续混合高斯HMM模型的物流分拣地名语音识别方法、系统及物流分拣系统技术方案

技术编号:15253536 阅读:100 留言:0更新日期:2017-05-02 18:54
本发明专利技术揭示的基于连续混合高斯HMM模型的物流分拣地名语音识别方法、系统及物流分拣系统,包括如下步骤,接收一未知地名语音信号,进行预处理;通过改进的短时平均能量及过零率的双门限端点检测方法进行端点检测并提取形成N×39的特征矩阵;将N×39的特征矩阵代入已建立好的地名语音模型库中,求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率,并把所述未知地名语音信号的特征矩阵识别为输出概率最大的那一类。本发明专利技术设计精巧,针对地名语音孤立词的特点,利用隐马尔科夫模型建立地名语音识别模型库并进行地名语音识别,从而为有效的进行物品分拣提供了精确的地址信息,实现了语音识别技术和物流分拣技术的有效结合。

Method and system for logistics sorting place name speech recognition based on continuous mixed Gauss HMM model and logistics sorting system

The invention discloses the names of logistics sorting speech recognition method, continuous mixed Gauss model based on HMM system and logistics sorting system, which comprises the following steps: receiving an unknown name speech signal preprocessing; by improving the short-time average energy and double threshold endpoint detection method of zero rate of endpoint detection and extraction of N feature matrix * 39 * 39 N; the feature matrix has been established by the names voice model database, calculate it for each kind of names of speech signals corresponding to continuous mixing of Gauss HMM model output probability, and the characteristics of the matrix to identify unknown names for speech signal output probability of the largest of the class. The present invention is ingenious in design, according to the characteristics of the isolated word speech names, names of establishing speech recognition model base and name speech recognition using hidden Markov model, which provides accurate address information for sorting items, the effective combination of the realization of the speech recognition technology and material flow sorting technology.

【技术实现步骤摘要】

本专利技术涉及语音识别方法、系统及物流分拣系统,尤其涉及一种基于连续混合高斯HMM模型的物流分拣地名语音识别方法、系统及物流分拣系统。
技术介绍
随着经济的高速发展和全球化趋势的日益突出,现代物流行业已在发达国家得到了空前的发展,并产生了巨大的经济效益和社会效益,物流资源有运输、仓储、分拣、包装、配送等,这些资源分散在多个领域,包括制造业、农业、流通业等。在分拣环节中,现阶段基本是人工进行分拣,由于工人们长期处于嘈杂的工作环境中,心里和身体上势必会产生一定的疲劳感,并且工作任务的单一性和重复性也会使他们的工作状态过于放松,这必然导致分拣精确性的下降,造成较多不可挽回的分拣失误事故发生,工业领域中对流水线上的产品分拣进行人工检测的方式已不能满足现代化工业的需求。语音识别发展到现在,作为人机交互的重要借口已经在很多方面改变了我们的生活,从智能家居的语音控制系统到车载语音识别系统,语音识别系统给我们带来了很多方便,因此将语音识别技术与物流分拣环节的融合是物流行业发展的必然要求。而目前市场上鲜有关于基于地名语音识别的物流分拣的相关报道,因此有必要研究一种分拣效率高、分拣更加精确的分拣系统。
技术实现思路
本专利技术的目的就是为了解决现有技术中存在的上述问题,提供一种基于连续混合高斯HMM模型的物流分拣地名语音识别方法、系统及物流分拣系统。本专利技术的目的将通过以下技术方案得以实现:基于连续混合高斯HMM模型的物流分拣地名语音识别方法,包括如下步骤:S1,接收一未知地名语音信号,进行预处理;S2,通过改进的短时平均能量及过零率的双门限端点检测方法对经过预处理的地名语音信号进行端点检测,剪切出信号段;S3,对经过端点检测的地名语音信号进行特征提取,形成N×39的特征矩阵;S4,将N×39的特征矩阵代入已建立好的、包含若干不同类地名语音信号对应的连续混合高斯HMM模型的地名语音模型库中,通过viterbi算法求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率,并把所述未知地名语音信号的特征矩阵识别为输出概率最大的那一类,即为该未知地名语音信号对应的地名。优选的,所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法,其中:所述改进的短时平均能量及过零率的双门限端点检测方法包括如下过程:S21,初始状态下,状态变量status=0,语音长度计数变量count=0,接收经过预处理的地名语音信号,从第一帧信号开始判断每帧语音信号的能量amp[i]与最低能量阈值amp2、最高能量阈值amp1的大小以及判断过零率zcr[i]与过零率阈值zcr的大小,确定状态变量status的值;S22,当第i帧语音信号的能量amp[i]<最低能量阈值amp2时,将状态变量status设置为0,表明仍处于静音段,按照S21步骤进行下一帧检测;S23,当最高能量阈值amp1>第i帧语音信号的能量amp[i]>最低能量阈值amp2,且过零率zcr[i]>过零率阈值zcr,将状态变量status设置为1,表明可能处于语音段,并将语音长度计数变量count加1,用于计算未确定进入语音段时可能处于语音段的长度的变量slience1加1,按照S21步骤进行下一帧检测;S24,若已经进入状态status=1,且当下一帧语音信号的能量小于最低能量阈值amp2时,判断slience1>6是否成立,若成立,表示当前是噪音段,舍弃前面的语音部分,按照S21步骤继续下一帧检测;若不成立,则表示可能在语音段,将语音长度计数变量count加1,用于计算未确定进入语音段时可能处于语音段的长度的变量slience1加1,按照S21步骤进行下一帧检测;S25,当第i帧语音信号的能量amp[i]>最高能量阈值amp1,则将状态变量status设置为2,表示进入语音段,同时将语音长度计数变量count加1,按照S26步骤进行下一帧检测;S26,判断当前帧语音信号的能量amp[i]>最低能量阈值amp2或当前帧语音信号的过零率zcr[i]>过零率阈值zcr是否成立;S27,若成立,表示还在语音段,则状态变量status继续保持为2,语音长度计数变量count加1,按照S26步继续下一帧检测;S28,若不成立,则将静音长度slience加1,并执行S29步骤;S29,判断静音长度slience<最大静音长度maxslience是否成立;S210,若成立,则表示可能还在语音段,状态变量status继续保持为2,将语音长度计数变量count加1,同时静音段长度slience加1,按照S26步骤进行下一帧检测;S211,若不成立,则判断语音长度计数变量count<语音信号最小长度minlen是否成立;S212,若成立,表明前面检测出来的都是噪声,将状态变量status设置为0、静音段长度slience设置为0、语音长度计数变量count设置为0,再继续检验;S213,若不成立,表示语音段已经找到,将状态参数status设置为3,结束进程。优选的,所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法,其中:所述最低能量阈值amp2的值为0.01,所述最高能量阈值amp1的值是0.1,所述过零率阈值zcr为100,所述语音信号最小长度minlen=5,所述静音最大长度maxslience=10。优选的,所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法,其中:所述特征提取的过程如下:S31,对经过端点检测得到的地名语音信号进行分帧,并对每一帧进行加窗处理;S32,对每一帧加窗之后的数据进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到其功率谱;S33,取每帧数据的前128个数据通过Mel三角滤波器组,所述Mel三角滤波器组的设计过程如下:S331,根据公式(1)、最大采样频率fs(max)、三角滤波器的数量k,计算出相邻两个三角滤波器的中心频率的间隔△Mel△Mel=fs(max)/(k+1)(1);S332,根据△Mel算出每个滤波器在梅尔频率范围内中心频率的分布之后,求出每一个三角滤波器的左端点Mel频率、中心点Mel频率和右端点Mel频率,并根据公式(2)将它们转换为实际频率:f=(10fm/2595-1)*700(2)其中fm为Mel频率,f为实际频率;S333,根据公式(3)将每个三角滤波器的实际频率转换成对应的采样点坐标,并计算出每个三角滤波器的起点、中心点和终点的横坐标;X=[f*128/400](3)其中,X为实际频率对应的坐标,f为实际频率,取值范围在1-4000HZ之间,中括号表示取整;S334,根据公式(4)设计得到Mel三角滤波器组,其中,Hl(k)表示第l个三角滤波器在位置k的值,k指的是采样点位置,范围是0-128,l表示第l个三角滤波器,c(l-1)表示第l个三角滤波器的起点的横坐标,c(l)表示第l个三角滤波器的中心点的横坐标,c(l+1)表示第l个三角滤波器的终点的横坐标;S34,根据公式(5)对Mel三角滤波器组的输出作对数运算;其中,s(m)指的是能量谱通过一组滤波器的输出,N为一帧信号的采样点个数的一半,Xa(k)表示第a帧信号的第k个采样点,Hm(k)表示第m个三角滤波器的第k个值,M为三角滤波本文档来自技高网...

【技术保护点】
基于连续混合高斯HMM模型的物流分拣地名语音识别方法,其特征在于:包括如下步骤:S1,接收一未知地名语音信号,进行预处理;S2,通过改进的短时平均能量及过零率的双门限端点检测方法对经过预处理的地名语音信号进行端点检测,剪切出信号段;S3,对经过端点检测的地名语音信号进行特征提取,形成N×39的特征矩阵;S4,将N×39的特征矩阵代入已建立好的、包含若干不同类地名语音信号对应的连续混合高斯HMM模型的地名语音模型库中,通过viterbi算法求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率,并把所述未知地名语音信号的特征矩阵识别为输出概率最大的那一类,即为该未知地名语音信号对应的地名。

【技术特征摘要】
1.基于连续混合高斯HMM模型的物流分拣地名语音识别方法,其特征在于:包括如下步骤:S1,接收一未知地名语音信号,进行预处理;S2,通过改进的短时平均能量及过零率的双门限端点检测方法对经过预处理的地名语音信号进行端点检测,剪切出信号段;S3,对经过端点检测的地名语音信号进行特征提取,形成N×39的特征矩阵;S4,将N×39的特征矩阵代入已建立好的、包含若干不同类地名语音信号对应的连续混合高斯HMM模型的地名语音模型库中,通过viterbi算法求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率,并把所述未知地名语音信号的特征矩阵识别为输出概率最大的那一类,即为该未知地名语音信号对应的地名。2.根据权利要求1所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法,其特征在于:所述改进的短时平均能量及过零率的双门限端点检测方法包括如下过程:S21,初始状态下,状态变量status=0,语音长度计数变量count=0,接收经过预处理的地名语音信号,从第一帧信号开始判断每帧语音信号的能量amp[i]与最低能量阈值amp2、最高能量阈值amp1的大小以及判断过零率zcr[i]与过零率阈值zcr的大小,确定状态变量status的值;S22,当第i帧语音信号的能量amp[i]<最低能量阈值amp2时,将状态变量status设置为0,表明仍处于静音段,按照S21步骤进行下一帧检测;S23,当最高能量阈值amp1>第i帧语音信号的能量amp[i]>最低能量阈值amp2,且过零率zcr[i]>过零率阈值zcr,将状态变量status设置为1,表明可能处于语音段,并将语音长度计数变量count加1,用于计算未确定进入语音段时可能处于语音段的长度的变量slience1加1,按照S21步骤进行下一帧检测;S24,若已经进入状态status=1,且当下一帧语音信号的能量小于最低能量阈值amp2时,判断slience1>6是否成立,若成立,表示当前是噪音段,舍弃前面的语音部分,按照S21步骤继续下一帧检测;若不成立,则表示可能在语音段,将语音长度计数变量count加1,用于计算未确定进入语音段时可能处于语音段的长度的变量slience1加1,按照S21步骤进行下一帧检测;S25,当第i帧语音信号的能量amp[i]>最高能量阈值amp1,则将状态变量status设置为2,表示进入语音段,同时将语音长度计数变量count加1,按照S26步骤进行下一帧检测;S26,判断当前帧语音信号的能量amp[i]>最低能量阈值amp2或当前帧语音信号的过零率zcr[i]>过零率阈值zcr是否成立;S27,若成立,表示还在语音段,则状态变量status继续保持为2,语音长度计数变量count加1,按照S26步继续下一帧检测;S28,若不成立,则将静音长度slience加1,并执行S29步骤;S29,判断静音长度slience<最大静音长度maxslience是否成立;S210,若成立,则表示可能还在语音段,状态变量status继续保持为2,将语音长度计数变量count加1,同时静音段长度slience加1,按照S26步骤进行下一帧检测;S211,若不成立,则判断语音长度计数变量count<语音信号最小长度minlen是否成立;S212,若成立,表明前面检测出来的都是噪声,将状态变量status设置为0、静音段长度slience设置为0、语音长度计数变量count设置为0,再继续检验;S213,若不成立,表示语音段已经找到,将状态参数status设置为3,结束进程。3.根据权利要求2所述的基于连续混合高斯HMM模型的物流分拣地名语音识别方法,其特征在于:所述最低能量阈值amp2的值为0.01,所述最高能量阈值amp1的值是0.1,所述过零率阈值zcr为100,所述语音信号最小长度minlen=5,所述静音最大长度maxslience...

【专利技术属性】
技术研发人员:蔡熙聂腾云赖雪军谢巍车松勋
申请(专利权)人:苏州金峰物联网技术有限公司上海韵达货运有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1