语音识别方法及装置制造方法及图纸

技术编号:23534132 阅读:47 留言:0更新日期:2020-03-20 08:12
一种语音识别方法及装置,所述方法包括:将采集到的输入声音信号进行处理,得到输入声音数据;对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别。上述的方案可以节约语音识别的时间和计算资源。

Speech recognition method and device

【技术实现步骤摘要】
语音识别方法及装置本申请为申请日为2015年01月30日,申请号为:201510051345.4,名称为:语音识别方法及装置的分案申请。
本专利技术涉及语音识别
,特别是涉及一种语音识别方法及装置。
技术介绍
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。语音识别方法和总听系统(AlwaysListeningSystem)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别。之后,移动终端便会根据所识本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n将采集到的输入声音信号进行处理,得到输入声音数据;/n对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;/n采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;/n当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别;/n其中,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到,包括:/n采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得...

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
将采集到的输入声音信号进行处理,得到输入声音数据;
对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;
采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;
当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别;
其中,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到,包括:
采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息;
根据得到纯净语音数据、非稳态噪声数据,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息,分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息;
将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙,并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息,分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比;
根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比,分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵;
为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵;
对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。


2.根据权利要求1所述的语音识别方法,其特征在于,所述对所述声音数据进行几何重塑,得到所述声音数据的低维表征数据,包括:
获取所述输入声音数据的MFCC,及其对应的MFCC频带数量的信息;
将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得到的MFCC频带数量的信息,计算得出所述输入声音数据的对数似然比;
采用计算得出的所述输入声音数据的对数似然比,构建所述输入声音数据的特征矩阵;
构建所述输入声音数据的特征矩阵对应的相似矩阵;
对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。


3.根据权利要求1或2所述的语音识别方法,其特征在于,采用如下的公式计算对数似然比,包括:



其中,ι表示对数似然比,xs表示MFCC对应的MFCC频带数量,PriSNR表示先噪声比,PostSNR表示后噪声比。


4.根据权利要求3所述的语音识别方法,其特征在于,所述采用计算得出的所述输入声音数据的对数似然比,得到所述输入声音数据的特征矩阵,包括:



其中,X表示特征矩阵,t表示声音数据帧的位序,且t=(1,2...N),ι表示对数似然比。


5.根据权利要求4所述的语音识别方法,其特征在于,所述为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵,包括:



其中,T表示所述声音训练数据的相似矩阵,i、j分别表示所述声音训练数据集的位...

【专利技术属性】
技术研发人员:孙廷玮林福辉
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1