语音识别方法及装置制造方法及图纸

技术编号:15620743 阅读:206 留言:0更新日期:2017-06-14 04:36
语音识别方法及装置,所述语音识别方法包括:将获取的待识别的声音数据划分为多个重叠的声音帧,并对每个声音帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个声音帧的频谱进行遍历,将遍历到的当前声音帧的频谱划分为无重叠的多个子带;分别计算当前声音帧的多个子带的子带功率谱熵概率质量;根据当前声音帧的各个子带的子带功率谱熵概率质量,计算当前声音帧的子带功率谱熵;当确定当前声音帧的子带功率谱熵大于预设的阈值时,确定当前声音帧中包括语音信息。上述的方案,可以提高语音识别的速度和准确率。

【技术实现步骤摘要】
语音识别方法及装置
本专利技术涉及语音识别
,特别是涉及一种语音识别方法及装置。
技术介绍
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。但是,移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。语音识别方法和总听系统(AlwaysListeningSystem)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。但是,现有技术中语音识别方法,一般存在着语音识别速度慢且准确率低的问题。
技术实现思路
本专利技术实施例解决的问题是提高语音识别的速度和准确率。为解决上述问题,本专利技术实施例提供了一种语音识别方法,所述语音识别方法包括:将获取的待识别的声音数据划分为多个重叠的声音帧,并对每个声音帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个重叠的声音帧的频谱进行遍历,将遍历到的当前声音帧的频谱划分为无重叠的多个子带;分别计算当前声音帧的多个子带的子带功率谱熵概率质量;根据当前声音帧的各个子带的子带功率谱熵概率质量,计算当前声音帧的子带功率谱熵;当确定当前声音帧的子带功率谱熵大于预设的阈值时,确定当前声音帧中包括语音信息。可选地,所述将遍历到的当前声音帧的频谱划分为无重叠的多个子带,包括:按照预设的子带宽度将遍历到的所述当前声音帧的频谱划分成为无重叠的多个子带。可选地,采用如下的公式分别计算当前声音帧的多个子带的子带功率谱熵概率质量:其中,xi表示第i个子带的频谱能量,N为各个声音帧划分得到的子带的数目。可选地,采用如下的公式根据当前声音帧的各个子带的子带功率谱熵概率质量,计算当前声音帧的子带功率谱熵:H(x)=-∑x∈Xxi×log2xi,其中,H(x)表示声音帧的子带功率谱熵。可选地,所述将遍历到的当前声音帧的频谱划分为无重叠的多个子带,包括:将遍历到的当前声音帧的频谱划分为无重叠的12或13个子带。可选地,所述方法还包括:当确定当前声音帧中包括语音信息时,对当前声音帧进行语音识别。本专利技术实施例还提供了一种语音识别装置,所述装置包括:频域处理单元,适于将获取的待识别的声音数据划分为多个重叠的声音帧,并对每个声音帧进行快速傅立叶变换运算,得到对应的频谱;子带划分单元,适于对所述多个重叠的声音帧的频谱进行遍历,将遍历到的当前声音帧的频谱划分为无重叠的多个子带;第一计算单元,适于分别计算当前声音帧的多个子带的子带功率谱熵概率质量;第二计算单元,适于根据当前声音帧的各个子带的子带功率谱熵概率质量,计算当前声音帧的子带功率谱熵;判断单元,适于判断当前声音帧的子带功率谱熵是否大于预设的阈值;确定单元,适于当确定当前声音帧的子带功率谱熵大于预设的阈值时,确定当前声音帧中包括语音信息。可选地,所述子带划分单元适于按照预设的子带宽度将遍历到的所述当前声音帧的频谱划分成为无重叠的多个子带。适于:所述第一计算单元,适于采用如下的公式分别计算当前声音帧的多个子带的子带功率谱熵概率质量:其中,xi表示第i个子带的频谱能量,N为各个声音帧划分得到的子带的数目。可选地,所述第二计算单元适于采用如下的公式根据当前声音帧的各个子带的子带功率谱熵概率质量,计算当前声音帧的子带功率谱熵:H(x)=-∑x∈Xxi×log2xi,其中,H(x)表示声音帧的子带功率谱熵。可选地,所述子带划分单元适于将遍历到的当前声音帧的频谱划分为无重叠的12或13个子带。可选地,所述装置还包括:语音识别单元,适于当确定当前声音帧中包括语音信息时,对当前声音帧进行语音识别。与现有技术相比,本专利技术的技术方案具有以下的优点:上述的方案,在当前声音帧的子带功率谱熵大于预设的阈值时,则确定当前声音帧中包括语音信息,因划分得到的各个声音帧的子带功率谱熵的计算较为简单,因此,可以节省语音识别的计算资源和时间,且可以提高语音识别的准确率。进一步地,当将每个声音帧的频谱按照预设的宽度划分得到多个无重叠的子带时,可以简化子带划分的过程,提高子带划分的速度,进而可以提升语音识别的速度。进一步地,通过所述将每个声音帧的频谱划分为12或13个无重叠的多个子带,可以进一步提高语音识别的准确性。附图说明图1是本专利技术实施例中的一种语音识别方法的流程图;图2是本专利技术实施例中的另一种语音识别方法的流程图;图3是本专利技术实施例中的一种语音识别装置的结构示意图。具体实施方式为解决现有技术中存在的上述问题,本专利技术实施例采用的技术方案通过在确定当前声音帧的子带功率谱熵大于预设的阈值时,确定当前声音帧中包括语音信息,因划分得到的各个声音帧的子带功率谱熵的计算较为简单,可以节省语音识别的计算资源和时间,且可以提高语音识别的准确率。为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。图1示出了本专利技术实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法,可以包括如下步骤:步骤S101:将获取的待识别的声音数据划分为多个重叠的声音帧,并对每个声音帧进行快速傅立叶变换运算,得到对应的频谱。步骤S102:对所述多个声音帧的频谱进行遍历,将遍历到的当前声音帧的频谱划分为无重叠的多个子带。步骤S103:分别计算当前声音帧的多个子带的子带功率谱熵概率质量。步骤S104:根据当前声音帧的各个子带的子带功率谱熵概率质量,计算当前声音帧的子带功率谱熵。步骤S105:当确定当前声音帧的子带功率谱熵大于预设的阈值时,确定当前声音帧中包括语音信息。下面将结合图2对本专利技术实施例中的语音识别方法做进一步详细的介绍。图2示出了本专利技术实施例中的另一种语音识别方法的流程图。如图2所示的语音识别方法,可以包括:步骤S201:将获取的声音数据进行重叠分帧,得到对应的多个声音帧。在具体实施中,首先可以对所采集的声音信号进行模数转换,得到对应的声音数据。接着,可以将对应的声音数据进行重叠分帧,得到多个声音帧。对采集的声音数据进行分帧,实质是对声音数据进行短时分析。短时分析是把声音信号分成具有固定周期的时间短段,每个时间短段是相对固定的持续声音片段。其中,相邻的两个声音帧之间部分重叠,重叠范围可以根据实际情况进行选择。步骤S202:对所得到的多个声音帧进行加窗处理。在具体实施中,可以选择汉明窗、汉宁窗、矩形窗等语音信号处理常用的窗函数,帧长选择为10~40ms,典型值为20ms。其中,对语音信号进行分帧处理破坏了声音信号的自然度,通过使用声音帧进行加窗和回移处理等,可以解决这个问题。步骤S203:将经过本文档来自技高网...
语音识别方法及装置

【技术保护点】
一种语音识别方法,其特征在于,包括:将获取的待识别的声音数据划分为多个重叠的声音帧,并对每个声音帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个重叠的声音帧的频谱进行遍历,将遍历到的当前声音帧的频谱划分为无重叠的多个子带;分别计算当前声音帧的多个子带的子带功率谱熵概率质量;根据当前声音帧的各个子带的子带功率谱熵概率质量,计算当前声音帧的子带功率谱熵;当确定当前声音帧的子带功率谱熵大于预设的阈值时,确定当前声音帧中包括语音信息。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:将获取的待识别的声音数据划分为多个重叠的声音帧,并对每个声音帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个重叠的声音帧的频谱进行遍历,将遍历到的当前声音帧的频谱划分为无重叠的多个子带;分别计算当前声音帧的多个子带的子带功率谱熵概率质量;根据当前声音帧的各个子带的子带功率谱熵概率质量,计算当前声音帧的子带功率谱熵;当确定当前声音帧的子带功率谱熵大于预设的阈值时,确定当前声音帧中包括语音信息。2.根据权利要求1所述的语音识别方法,其特征在于,所述将遍历到的当前声音帧的频谱划分为无重叠的多个子带,包括:按照预设的子带宽度将遍历到的当前声音帧的频谱划分成为无重叠的多个子带。3.根据权利要求2所述的语音识别方法,其特征在于,采用如下的公式分别计算当前声音帧的多个子带的子带功率谱熵概率质量:其中,xi表示第i个子带的频谱能量,N为各个声音帧划分得到的子带的数目。4.根据权利要求3所述的语音识别方法,其特征在于,采用如下的公式根据当前声音帧的各个子带的子带功率谱熵概率质量,计算当前声音帧的子带功率谱熵:H(x)=-∑x∈Xxi×log2xi,其中,H(x)表示声音帧的子带功率谱熵。5.根据权利要求1-4任一项所述的语音识别方法,其特征在于,所述将遍历到的当前声音帧的频谱划分为无重叠的多个子带,包括:将遍历到的当前声音帧的频谱划分为无重叠的12或13个子带。6.根据权利要求1所述的语音识别方法,其特征在于,还包括:当确定当前声音帧中包括语音信息时,对当前声音帧进行语音识别。7.一种语音识别装置,其特征在于,包括:频域处理单元,适于将获取的待识...

【专利技术属性】
技术研发人员:孙廷玮
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1