语音识别方法及装置制造方法及图纸

技术编号:23534133 阅读:25 留言:0更新日期:2020-03-20 08:12
一种语音识别方法及装置,所述语音识别方法包括:将获取的声音数据进行分帧处理,以得到至少两个声音帧;从所述至少两个声音数据帧中选取满足选取条件的声音帧;计算所述满足选取条件的声音帧的语音识别分值;当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。上述的方案可以节约计算资源,提升语音识别的速度。

Speech recognition method and device

【技术实现步骤摘要】
语音识别方法及装置本申请为申请日为2015年05月25日,申请号为:201510271782.7,名称为:语音识别方法及装置的分案申请。
本专利技术属于语音识别
,特别是涉及一种语音识别方法及装置。
技术介绍
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。语音识别方法和总听系统(AlwaysListeningSystem)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。但是,现有技术中的语音识别方法,在进行语音识别时,存在着计算量大、识别速度慢的问题。
技术实现思路
本专利技术实施例解决的问题是节省语音识别的计算资源,提高语音识别的速度。为解决上述问题,本专利技术实施例提供了一种语音识别方法,所述语音识别方法包括:将获取的声音数据进行分帧处理,以得到至少两个声音帧;从所述至少两个声音数据帧中选取满足选取条件的声音帧;计算所述满足选取条件的声音帧的语音识别分值;当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。可选地,所述从所述至少两个声音数据帧中选取满足选取条件的声音帧,包括:计算当前声音帧的后信噪比;根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;计算当前声音帧的第一选取阈值;当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,则选取当前声音帧。可选地,采用如下的公式计算当前声音帧的后信噪比:其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量。可选地,采用如下的公式计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离:D(t)=|logE(t)-logE(t-1)|×SNRpost(t);其中,D(t)表示前一声音帧和当前声音帧之间的后验信噪比权重能量距离,logE(t)表示当前声音帧的对数能量,logE(t-1)表示前一声音帧的对数能量。可选地,采用如下的公式计算当前声音帧的第一选取阈值:T(t)=Da(t)×f(logEnoise(t)),其中,T(t)表示当前声音帧的第二选取阈值,Da(t)表示当前声音帧之前的连续声音帧的后验信噪比权重能量距离均值,f(logEnoise(t))为S型函数。可选地,所述从得到的多个声音数据帧中选取满足预设的选取条件的声音帧,包括:计算当前声音帧的后信噪比;当确定计算得到的后信噪比大于预设的第二选取阈值时,选取当前声音帧。可选地,采用如下的公式计算当前声音帧的后信噪比:其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量。可选地,采用如下的公式计算所述满足选取条件的声音帧的语音识别分值,包括:其中,Mn表示计算得到的语音识别分值,n表示当前声音帧的位序,n-表示所选取的声音帧中起始声音帧的位序,n+表示所选取的声音帧中终止声音帧的位序,α表示预设的调整参数,m表示随着所选取的声音帧位序变化的正整数,f(α×(n+m))表示移动平均法预测模型。本专利技术实施例还提供了一种语音识别装置,所述语音识别装置包括:分帧处理单元,适于将获取的声音数据进行分帧处理,以得到至少两个声音帧;选取单元,适于从所述至少两个声音数据帧中选取满足选取条件的声音帧;计算单元,适于计算所述满足选取条件的声音帧的语音识别分值;识别单元,适于当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。可选地,所述选取单元适于计算当前声音帧的后信噪比;根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;计算当前声音帧的第二选取阈值;当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第二选取阈值时,则选取当前声音帧。可选地,所述选取单元适于计算当前声音帧的后信噪比;当确定计算得到的后信噪比大于预设的第一选取阈值时,选取当前声音帧。与现有技术相比,本专利技术的技术方案具有以下的优点:通过从待识别的声音数据中选取满足预设条件的声音帧进行语音识别,可以排除不包括语音信息的非语音数据帧,而仅对所选取的声音帧均进行语音识别处理,因此,可以节约计算资源,提升语音识别的速度,提升用户的使用体验。进一步地,根据计算得到的当前声音帧的后信噪比,计算得到当前声音帧和前一声音帧的后验信噪比权重能量距离,并将计算得到的后验信噪比权重能量距离与计算得到的当前声音帧的第二选取阈值进行比较,与仅仅计算当前声音帧的后信噪比相比,可以将更多的不包括语音信息的非语音声音帧排除在外,因此,可以进一步节省计算资源,提升语音识别的速度。进一步地,通过仅仅将计算得到的当前声音帧的后信噪比与预设的第一选取阈值进行比较,可以将更多的不包括语音信息的声音帧排除,并可以节省计算资源,因此,可以进一步提高语音识别的速度。附图说明图1是本专利技术实施例中的一种语音识别方法的流程图;图2是本专利技术实施例中的另一种语音识别方法的流程图;图3是本专利技术实施例中的又一种语音识别方法的流程图;图4是本专利技术实施例中的一种语音识别装置的结构示意图。具体实施方式现有技术中的语音识别方法,在进行语音识别时,通常以固定帧率(FixedFrameRate,FFR)对待识别的声音数据划分得到的多个声音帧进行语音识别处理。由于划分得到的多个声音帧中的某些声音帧中并不包括语音信息,对这些不包括语音信息的非语音帧进行语音识别处理,不仅对于语音识别毫无意义,而且还会浪费计算资源,降低语音的识别速度。为解决现有技术中存在的上述问题,本专利技术实施例采用的技术方案通过从待识别的声音数据中选取满足预设条件的声音帧进行语音识别,可以节约计算资源,提升语音识别的速度,提升用户的使用本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n将获取的声音数据进行分帧处理,以得到至少两个声音帧;/n从所述至少两个声音数据帧中选取满足选取条件的声音帧;/n计算所述满足选取条件的声音帧的语音识别分值;/n当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别;其中,所述从所述至少两个声音数据帧中选取满足选取条件的声音帧,包括:/n计算当前声音帧的后信噪比,包括:采用如下的公式计算当前声音帧的后信噪比:/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
将获取的声音数据进行分帧处理,以得到至少两个声音帧;
从所述至少两个声音数据帧中选取满足选取条件的声音帧;
计算所述满足选取条件的声音帧的语音识别分值;
当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别;其中,所述从所述至少两个声音数据帧中选取满足选取条件的声音帧,包括:
计算当前声音帧的后信噪比,包括:采用如下的公式计算当前声音帧的后信噪比:

其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量;
根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;
计算当前声音帧的第一选取阈值;
当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,则选取当前声音帧。


2.根据权利要求1所述语音识别方法,其特征在于,采用如下的公式计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离:
D(t)=|logE(t)-logE(t-1)|×SNRpost(t);其中,D(t)表示前一声音帧和当前声音帧之间的后验信噪比权重能量距离,logE(t)表示当前声音帧的对数能量,logE(t-1)表示前一声音帧的对数能量。


3.根据权利要求2所述的语音识别方法,其特征在于,采用如下的公式计算当前声音帧的第一选取阈值:
T(t)=Da(t)×f(logEnoise(t)),其中,T(t)表示当前声音帧的第一选取阈值,Da(t)表示当前声音帧之前的连续声音帧的后验信噪比权重能量距离均值,f(logEnoise(t))为S型函数。


4.根据权利要求1所述的语音识别方法,其特征在于,所述从得到的多个声音数据帧中选...

【专利技术属性】
技术研发人员:孙廷玮林福辉
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1