【技术实现步骤摘要】
一种语音识别方法及设备
[0001]本申请涉及电子
,尤其涉及一种语音识别方法及终端设备。
技术介绍
[0002]语音端点检测(voice activity detection,VAD),也可称为语音边界检测,其主要用于识别出一段音频中哪些部分没有说话声,哪些部分存在说话声。其中,没有说话声的部分也可以称为静音期,该部分可以仅包含噪声等。当通过VAD进行检测后,可以有效消除音频中的静音期。在例如网际互联协议(internet protocol,IP)通话或是自动语音识别(automatic speech recognition,ASR)技术中,可以通过VAD可以识别并消除长时间的静音期,以达到不降低业务质量的情况下节省资源。该方式可以节省宝贵的计算资源,有利于减少用户感到端到端的时延。
[0003]目前的VAD技术通常应用于语音识别系统中,负责从带有噪音的音频数据中准确地定位出语音的开始和结束点。因此,VAD的好坏将直接影响检测结果的效果。正如图1所示出的,当前VAD主要可以采用两种不同方式进行,如门限比较和统 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法应用于终端设备,所述方法包括:获取麦克风采集到的音频数据;对所述音频数据进行语音端点检测,确定至少一个人声片段;针对所述人声片段进行特征提取,以确定所述人声片段的嵌入特征向量;将所述嵌入特征向量与特征向量数据库中的数据依次进行相似度对比,若所述嵌入特征向量与所述特征向量数据库中每一项数据的相似度均小于相似度阈值,则将所述嵌入特征向量存储至所述特征向量数据库中,并对所述嵌入特征向量对应的所述人声片段进行自动语音识别,以执行相应的指令。2.如权利要求1所述的方法,其特征在于,所述对所述音频数据进行语音端点检测,确定至少一个人声片段,包括:将所述音频数据输入至包含至少一个长短期记忆人工神经网络LSTM的语音端点检测模型中进行检测,确定出至少一个人声片段。3.如权利要求2所述的方法,其特征在于,所述包含至少一个LSTM的语音端点检测模型中包括:至少6层一维卷积神经网络以及至少3层128节点的单向LSTM。4.如权利要求1
‑
3任意一项所述的方法,其特征在于,所述针对所述人声片段进行特征提取,包括:针对所述人声片段,结合与所述人声片段相邻的静音片段,确定所述人声片段的信噪比,其中,所述静音片段为所述音频数据进行所述语音端点检测得到的或预先配置的;若所述信噪比大于预设的信噪比阈值,则对所述人声片段进行特征提取。5.如权利要求1
‑
4任意一项所述的方法,其特征在于,所述确定所述人声片段的嵌入特征向量,包括:将所述人声片段输入至包含多个隐藏层的嵌入特征提取模型中进行特征提取,以确定出所述人声片段的嵌入特征向量。6.如权利要求5所述的方法,其特征在于,所述嵌入特征提取模型包括至少4个隐藏层。7.如权利要求1
‑
6任意一项所述的方法,其特征在于,在将所述嵌入特征向量存储至所述特征向量数据库之前,所述方法还包括:将所述嵌入特征向量对应的所述人声片段输入至检测指令模型中进行检测;若检测到所述嵌入特征向量对应的所述人声片段中包含指令,则将所述嵌入特征向量存储至所述特征向量数据...
【专利技术属性】
技术研发人员:杨仁志,江继勇,俞清华,张少永,张建,
申请(专利权)人:华为终端有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。