一种语音识别方法及设备技术

技术编号:37669931 阅读:30 留言:0更新日期:2023-05-26 04:31
本申请实施例涉及一种语音识别方法,包括:获取麦克风采集到的音频数据。对获取到的音频数据进行语音端点检测,确定出人声片段。针对人声片段提取嵌入特征向量。将嵌入特征向量与特征向量数据库中的数据依次进行相似度对比。若嵌入特征向量与特征向量数据库中每一项数据的相似度均小于预先设定的相似度阈值,则将该嵌入特征向量存储至特征向量数据库中。并对嵌入特征向量对应的人声片段进行自动语音识别,以执行相应的指令。本申请可以通过特征向量数据库中存储的数据匹配到多个不同说话人,从而达到有效应对存在不同说话人时进行语音识别的情况。语音识别的情况。语音识别的情况。

【技术实现步骤摘要】
一种语音识别方法及设备


[0001]本申请涉及电子
,尤其涉及一种语音识别方法及终端设备。

技术介绍

[0002]语音端点检测(voice activity detection,VAD),也可称为语音边界检测,其主要用于识别出一段音频中哪些部分没有说话声,哪些部分存在说话声。其中,没有说话声的部分也可以称为静音期,该部分可以仅包含噪声等。当通过VAD进行检测后,可以有效消除音频中的静音期。在例如网际互联协议(internet protocol,IP)通话或是自动语音识别(automatic speech recognition,ASR)技术中,可以通过VAD可以识别并消除长时间的静音期,以达到不降低业务质量的情况下节省资源。该方式可以节省宝贵的计算资源,有利于减少用户感到端到端的时延。
[0003]目前的VAD技术通常应用于语音识别系统中,负责从带有噪音的音频数据中准确地定位出语音的开始和结束点。因此,VAD的好坏将直接影响检测结果的效果。正如图1所示出的,当前VAD主要可以采用两种不同方式进行,如门限比较和统计分类两大类。对于采用门限比较这类方式的VAD,具体还可以包括采用单一特征门限进行比较,以及采用多特征门限进行比较。但是目前的VAD方案中采用基于门限进行检测,若音频中的噪声较为复杂时,例如包含播报音乐、播报电子书、多人说话、车载风噪等杂音,则很难对音频进行人声、噪音的识别,显然导致检测结果非常不准。
[0004]对于采用统计分类这类方式的VAD,具体还可以包括采用监督分类模型和采用无监督分类模型。在一些方案中,采用监督分类模型可以包括采用支持向量机和采用神经网络。而在另一些方案中,采用无监督分类模型可以包括采用混合高斯模型和采用隐马尔可夫模型。而对于采用了统计分类的VAD,目前方案通常是进行二元分类,也就是说,仅能针对人声片段进行划分,而无法识别到这些人声片段具体是哪些人的。在一些方案中,或是只能识别出某一个人的人声片段,无法应对不同人的语音识别。
[0005]因此,目前亟需可以有效识别音频中不同人说话的方案。

技术实现思路

[0006]本申请实施例提供了一种语音识别方法,通过对获取到的音频数据进行VAD划分出人声片段。之后对人声片段进行特征提取后与特征向量数据库中预存的数据进行比对,如果均匹配失败,则可以将该人声片段的特征存储至特征向量数据库中。以便后续进行语音识别时,可以匹配到多个不同说话人,从而达到有效应对存在不同说话人进行语音识别的场景。
[0007]第一方面,提供了一种语音识别方法,该方法可以应用于终端设备,方法可以包括:获取麦克风采集到的音频数据。在一些例子中,该音频数据也可以是其它设备采集并发送至该终端设备上的。然后,对获取到的音频数据进行语音端点检测,确定出至少一个人声片段。之后,针对人声片段进行特征提取,确定出该人声片段的嵌入特征向量。在一些例子
中,可以针对每个人声片段进行特征提取。然后,将人声片段的嵌入特征向量与特征向量数据库中的数据依次进行相似度对比。可以理解的是,特征向量数据库中存储有一个或多个说话人对应的嵌入特征向量。当然,首次使用时,特征向量数据库中可以不存在数据,此时相似度对比结果可以是0。若嵌入特征向量与特征向量数据库中每一项数据的相似度均小于预先设定的相似度阈值,则该嵌入特征向量存储至特征向量数据库中。之后,对嵌入特征向量对应的人声片段进行自动语音识别,以执行相应的指令。本申请通过对获取到的音频数据进行VAD划分出人声片段,之后进行特征提取后与特征向量数据库中预存的数据进行比对。如果均匹配失败,则可以将该人声片段的特征存储至特征向量数据库中。以便后续进行语音识别时,可以通过特征向量数据库中存储的数据匹配到多个不同说话人,从而达到有效应对存在不同说话人时进行语音识别的情况。
[0008]在一个可能的实施方式中,对音频数据进行语音端点检测,确定至少一个人声片段,可以包括:将音频数据输入至包含至少一个长短期记忆人工神经网络(long short

term memory,LSTM)的语音端点检测模型中进行检测,从而确定出至少一个人声片段。本申请,通过采用包含至少一个LSTM的VAD进行检测,相比现有的VAD可以对人声片段划分的更为准确,从而保障后续特征提取时可以提取到更有效的嵌入特征向量。
[0009]在一个可能的实施方式中,包含至少一个LSTM的语音端点检测模型中可以包括:至少6层一维卷积神经网络以及至少3层128节点的单向LSTM。
[0010]在一个可能的实施方式中,针对人声片段进行特征提取,可以包括:针对人声片段,可以通过该人声片段和与该人声片段相邻的静音片段相结合,确定出该人声片段的信噪比。其中,静音片段可以为音频数据进行语音端点检测得到的或预先配置的。若信噪比大于预设的信噪比阈值,则可以对人声片段进行特征提取。本申请中,通过对人声片段进行信噪比检测,以便可以筛选出干扰小的人声片段进行后续的特征提取,保障了特征提取时可以提取到更为有效的嵌入特征向量。
[0011]在一个可能的实施方式中,结合与人声片段相邻的静音片段,确定人声片段的信噪比,可以包括:从人声片段中确定预设时长的片段作为信号片段,以及从与该人声片段相邻的静音片段中确定预设时长的片段作为噪音片段。然后,可以根据信号片段和噪音片段确定出该人声片段的信噪比。
[0012]在一个可能的实施方式中,预设时长可以为320毫秒。
[0013]在一个可能的实施方式中,确定人声片段的嵌入特征向量,可以包括:将人声片段输入至包含多个隐藏层的嵌入特征提取模型中进行特征提取,从而可以确定出该人声片段的嵌入特征向量。本申请通过包含多个隐藏层的嵌入特征提取模型对人声片段进行特征提取,使得提取出的特征可以更有效的识别到相对应的说话人。
[0014]在一个可能的实施方式中,嵌入特征提取模型可以包括至少4个隐藏层。本申请的嵌入特征提取模型中包含至少4个隐藏层,可以保障提取出的嵌入特征向量对说话人可以更好的进行表征。
[0015]在一个可能的实施方式中,在将嵌入特征向量存储至特征向量数据库之前,方法还可以包括:将嵌入特征向量对应的人声片段输入至检测指令模型中进行检测。若检测到嵌入特征向量对应的人声片段中包含有指令,则该人声片段对应的嵌入特征向量存储至特征向量数据库中。本申请通过对嵌入特征向量进行执行检测,从而避免了不存在指令的嵌
入特征向量被保存至特征向量数据库中,减少资源浪费。
[0016]在一个可能的实施方式中,方法还可以包括:若嵌入特征向量与特征向量数据库中的任意一项数据的相似度大于或等于相似度阈值,则可以对嵌入特征向量对应的人声片段进行自动语音识别,以便可以根据语音识别结果执行相应的指令。本申请中当人声片段的嵌入特征向量与特征向量数据库中的某个数据相似度较高时,可以认定匹配成功,从而确定识别出了该说话人,然后可以对该说话人的语音进行ASR并执行相应的指令。
[0017]在一个可能的实施方式中,特征向量数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法应用于终端设备,所述方法包括:获取麦克风采集到的音频数据;对所述音频数据进行语音端点检测,确定至少一个人声片段;针对所述人声片段进行特征提取,以确定所述人声片段的嵌入特征向量;将所述嵌入特征向量与特征向量数据库中的数据依次进行相似度对比,若所述嵌入特征向量与所述特征向量数据库中每一项数据的相似度均小于相似度阈值,则将所述嵌入特征向量存储至所述特征向量数据库中,并对所述嵌入特征向量对应的所述人声片段进行自动语音识别,以执行相应的指令。2.如权利要求1所述的方法,其特征在于,所述对所述音频数据进行语音端点检测,确定至少一个人声片段,包括:将所述音频数据输入至包含至少一个长短期记忆人工神经网络LSTM的语音端点检测模型中进行检测,确定出至少一个人声片段。3.如权利要求2所述的方法,其特征在于,所述包含至少一个LSTM的语音端点检测模型中包括:至少6层一维卷积神经网络以及至少3层128节点的单向LSTM。4.如权利要求1

3任意一项所述的方法,其特征在于,所述针对所述人声片段进行特征提取,包括:针对所述人声片段,结合与所述人声片段相邻的静音片段,确定所述人声片段的信噪比,其中,所述静音片段为所述音频数据进行所述语音端点检测得到的或预先配置的;若所述信噪比大于预设的信噪比阈值,则对所述人声片段进行特征提取。5.如权利要求1

4任意一项所述的方法,其特征在于,所述确定所述人声片段的嵌入特征向量,包括:将所述人声片段输入至包含多个隐藏层的嵌入特征提取模型中进行特征提取,以确定出所述人声片段的嵌入特征向量。6.如权利要求5所述的方法,其特征在于,所述嵌入特征提取模型包括至少4个隐藏层。7.如权利要求1

6任意一项所述的方法,其特征在于,在将所述嵌入特征向量存储至所述特征向量数据库之前,所述方法还包括:将所述嵌入特征向量对应的所述人声片段输入至检测指令模型中进行检测;若检测到所述嵌入特征向量对应的所述人声片段中包含指令,则将所述嵌入特征向量存储至所述特征向量数据...

【专利技术属性】
技术研发人员:杨仁志江继勇俞清华张少永张建
申请(专利权)人:华为终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1