一种面向货物分拣的地名语音建模系统的实现方法技术方案

技术编号:15238388 阅读:113 留言:0更新日期:2017-04-29 02:48
本发明专利技术公开了一种面向货物分拣的地名语音建模系统的实现方法,包括以下步骤:1)对语音信号进行预处理,包括预加重和分帧操作;2)对步骤1)中预处理过的语音信号进行端点检测和剪切处理;3)查看步骤2)中剪切之后的语音信号的效果,如果剪切正确,将其保存在指定的文件夹中;4)当步骤3)中所有语音信号的录取结束,建立语音信号的隐马尔科夫模型,并且保存所建立的模型数据。本发明专利技术针对地名语音信号简短的特点,将每个地名语音信号作为一个识别对象,直接将每个地名的整体作为一个对象建立隐马尔科夫模型,计算简单高效。

【技术实现步骤摘要】

本专利技术涉及信号处理、模式识别与人机交互领域,尤其是一种面向货物分拣的地名语音建模系统的实现方法。
技术介绍
目前物流现场的分拣环节中,主要的分拣方式是通过按键来确认货物要分往的槽口,操作人员必须使用按键方式输入货物分拣信息,操作比较耗时和麻烦。使用地名语音识别系统可以让操作员直接和分拣系统进行对话,通知分拣系统货物的分流信息,这种方式使得货物分拣更加高效、快捷和省时,地名语音建模系统可对地名语音信号建立隐马尔科夫模型,方便实现地名语音识别。
技术实现思路
本专利技术的目的是针对上述现有技术的不足,提供了一种操作方便、能够实现人机交互的面向货物分拣的地名语音建模系统的实现方法。本专利技术的目的可以通过如下技术方案实现:一种面向货物分拣的地名语音建模系统的实现方法,所述方法包括以下步骤:1)对语音信号进行预处理,包括预加重和分帧操作;2)对步骤1)中预处理过的语音信号进行端点检测和剪切处理;3)查看步骤2)中剪切之后的语音信号的效果,如果剪切正确,将其保存在指定的文件夹中;4)当步骤3)中所有语音信号的录取结束,建立语音信号的隐马尔科夫模型,并且保存所建立的模型数据。优选地,步骤1)中,所述预加重操作是将信号通过高通滤波器,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能够用同样的信噪比求频谱。优选地,步骤2)中使用的端点检测方法是基于短时能量和短时过零率的双门限检测法,具体步骤为:一、在开始进行端点检测之前,首先为短时能量和过零率分别设定两个门限,一个低门限,数值较小,对信号的变化较敏感,容易被超过,另一个高门限,数值较大,信号必须达到设定的强度,该门限才能够被超过;二、对语音信号x(n)进行分帧处理,每一帧记为n=1,2,…,N,n为离散语音信号时间序列,N为帧长,i表示帧数;三、计算每一帧语音信号的短时能量,得到语音信号的短时帧能量:其中N为帧长,i表示帧数,表示第i帧语音信号的第n(1≤n≤N)个采样点的值的平方;四、计算每一帧语音信号的过零率,得到语音信号的短时过零率:其中:其中sgn[si(n)]表示第i帧语音信号的第n(1≤n≤N)个采样点的值;此时整个端点检测分为四段:静音段、过渡段、语音段、结束段,在处于静音段时,如果短时能量或者过零率超过设定的低门限,标记为起点,进入过渡段后,如果短时能量和过零率两个参数值都回落到设定的低门限以下,就将当前状态恢复到静音段,而如果过渡段中短时能量和过零率两个参数值中的任一个超过设定的高门限,即被认为进入语音段,处于语音段时,如果短时能量和过零率两个参数值都降到了设定的低门限以下,而总的计时长度小于最短时间门限,则认为是一段噪音,重新计算语音信号的长度。优选地,步骤2)中,根据语音信号的音节设定一个阈值length和一个计算可能处于语音段信号长度的变量slience1,如果此变量slience1小于设定的阈值length,则继续循环,重新计算语音信号的长度,若大于设定的阈值length,则将前面的语音信号舍弃。优选的,所述面向货物分拣的地名语音建模系统的硬件,包括一个高性能的降噪耳机和一台计算机。优选的,所述面向货物分拣的地名语音建模系统的操作能够通过建立操作界面,在操作界面上完成。本专利技术与现有技术相比,具有如下优点和有益效果:1、本专利技术针对地名语音信号简短的特点,将每个地名语音信号作为一个识别对象,直接将每个地名的整体作为一个对象建立隐马尔科夫模型,计算简单。2、本专利技术建立了方便人机交互的图形界面,方便操作,通过系统可以直接看到语音效果图以及端点检测之后的图片,判断检测是否正确,当使用到不同的地域时,可以对特定口音的一群人建模,以提高后续识别的准确率。附图说明图1为本专利技术面向货物分拣的地名语音建模系统的原理图。图2为本专利技术实施例的改进前端点检测效果图。图3为本专利技术实施例的改进后端点检测效果图。图4为本专利技术实施例的语音信号双门限法端点检测结果图,其中图4(a)为语音信号“武汉”的语音信号波形图,图4(b)为语音信号“武汉”的语音信号短时能量波形图,图4(c)为语音信号“武汉”的语音信号过零率波形图。图5为本专利技术的面向货物分拣的地名语音信号的隐马尔科夫链模型。图6为本专利技术建立隐马尔科夫模型的原理图。图7为本专利技术的面向货物分拣的地名语音建模系统界面。图8为本专利技术的面向货物分拣的地名语音建模系统的使用界面。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例:本实施例提供了一种面向货物分拣的地名语音建模系统的实现方法,如图1所示,为本专利技术面向货物分拣的地名语音建模系统的原理图,所述方法包括以下步骤:1)对语音信号进行预处理,包括预加重和分帧操作;本步骤中,所述预加重操作是将信号通过高通滤波器,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能够用同样的信噪比求频谱。本实施例的采样频率为8KHz,帧长为256,帧移为128。2)对步骤1)中预处理过的语音信号进行端点检测和剪切处理;本步骤中,使用的端点检测方法是基于短时能量和短时过零率的双门限检测法,具体步骤为:一、在开始进行端点检测之前,首先为短时能量和过零率分别设定两个门限,一个低门限,数值较小,对信号的变化较敏感,容易被超过,另一个高门限,数值较大,信号必须达到设定的强度,该门限才能够被超过;二、对语音信号x(n)进行分帧处理,每一帧记为n=1,2,…,N,n为离散语音信号时间序列,N为帧长,i表示帧数;三、计算每一帧语音信号的短时能量,得到语音信号的短时帧能量:其中N为帧长,i表示帧数,表示第i帧语音信号的第n(1≤n≤N)个采样点的值的平方;四、计算每一帧语音信号的过零率,得到语音信号的短时过零率:其中:其中sgn[si(n)]表示第i帧语音信号的第n(1≤n≤N)个采样点的值;此时整个端点检测分为四段:静音段、过渡段、语音段、结束段,在处于静音段时,如果短时能量或者过零率超过设定的低门限,标记为起点,进入过渡段后,如果短时能量和过零率两个参数值都回落到设定的低门限以下,就将当前状态恢复到静音段,而如果过渡段中短时能量和过零率两个参数值中的任一个超过设定的高门限,即被认为进入语音段,处于语音段时,如果短时能量和过零率两个参数值都降到了设定的低门限以下,而总的计时长度小于最短时间门限,则认为是一段噪音,重新计算语音信号的长度。由于本实施例的信号是地名语音信号,每个信号都是由2-4个音节构成,当识别第一个音节时,可能由于第二个音节距离第一个音节较远,且第一个音节长度太短,即断断续续的语音信号,被直接当噪音滤掉,因此本实施例根据语音信号的音节设定一个阈值length和一个计算可能处于语音段信号长度的变量slience1,如果此变量slience1小于设定的阈值length,则继续循环,重新计算语音信号的长度,若大于设定的阈值length,则将前面的语音信号舍弃。如图2所示,为本实施例的改进前端点检测效果图,图3为本实施例的改进后端点检测效果图。3)查看步骤2)中剪切之后的语音信号的效果,如果剪切正确,将其保存在指定的文件夹中;如图4所示,为本专利技术实施例的语音信号双门限法端点检测结果图,其中图4(a)为语音信号“武汉”的语音信号波形图,图4(b)为语音信号本文档来自技高网...

【技术保护点】
一种面向货物分拣的地名语音建模系统的实现方法,其特征在于:所述方法包括以下步骤:1)对语音信号进行预处理,包括预加重和分帧操作;2)对步骤1)中预处理过的语音信号进行端点检测和剪切处理;3)查看步骤2)中剪切之后的语音信号的效果,如果剪切正确,将其保存在指定的文件夹中;4)当步骤3)中所有语音信号的录取结束,建立语音信号的隐马尔科夫模型,并且保存所建立的模型数据。

【技术特征摘要】
1.一种面向货物分拣的地名语音建模系统的实现方法,其特征在于:所述方法包括以下步骤:1)对语音信号进行预处理,包括预加重和分帧操作;2)对步骤1)中预处理过的语音信号进行端点检测和剪切处理;3)查看步骤2)中剪切之后的语音信号的效果,如果剪切正确,将其保存在指定的文件夹中;4)当步骤3)中所有语音信号的录取结束,建立语音信号的隐马尔科夫模型,并且保存所建立的模型数据。2.根据权利要求1所述的一种面向货物分拣的地名语音建模系统的实现方法,其特征在于:步骤1)中,所述预加重操作是将信号通过高通滤波器,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能够用同样的信噪比求频谱。3.根据权利要求1所述的一种面向货物分拣的地名语音建模系统的实现方法,其特征在于:步骤2)中使用的端点检测方法是基于短时能量和短时过零率的双门限检测法,具体步骤为:一、在开始进行端点检测之前,首先为短时能量和过零率分别设定两个门限,一个低门限,数值较小,对信号的变化较敏感,容易被超过,另一个高门限,数值较大,信号必须达到设定的强度,该门限才能够被超过;二、对语音信号x(n)进行分帧处理,每一帧记为n=1,2,…,N,n为离散语音信号时间序列,N为帧长,i表示帧数;三、计算每一帧语音信号的短时能量,得到语音信号的短时帧能量:Ei=Σi=1Nsi2(n)]]>其中N为帧长,i表示帧数,表示第i帧语音信号的第n(1≤n≤N)个采样点的值的平方;四、计算每一帧语音信号的过零率,得到语音信号的短时过零率:Zi=12&S...

【专利技术属性】
技术研发人员:谢巍董万里何伶珍
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1