语音数据处理方法及装置、存储介质、电子设备制造方法及图纸

技术编号:18528056 阅读:24 留言:0更新日期:2018-07-25 13:42
本公开提供一种语音数据处理方法及装置、存储介质、电子设备。该方法包括:获取用户输入的语音数据,所述语音数据包括成功唤醒智能终端的唤醒语音数据,以及表示操作意图的控制语音数据;提取所述语音数据的声学层面特征和/或语义层面特征,所述声学层面特征用于表示用户的发音特征,所述语义层面特征用于表示所述语音数据的文本特征;将所述声学层面特征和/或语义层面特征作为输入,经预先构建的语音判别模型处理后,确定所述唤醒语音数据是否为误唤醒数据。如此方案,利用筛除了误唤醒数据的唤醒语音数据进行模型优化,有助于提高唤醒模型的优化性能。

【技术实现步骤摘要】
语音数据处理方法及装置、存储介质、电子设备
本公开涉及语音信号处理
,具体地,涉及一种语音数据处理方法及装置、存储介质、电子设备。
技术介绍
语音唤醒技术是语音信号处理
的重要分支,在智能家居、智能机器人、智能车机、智能手机等方面有着重要的应用。通常,智能终端的语音唤醒过程可以体现为:智能终端监听用户是否输入语音数据,如果接收到用户输入的语音数据,可以提取语音数据的声学特征;然后将声学特征作为输入,由预先构建的唤醒模型进行唤醒词识别,若识别结果为唤醒词,则唤醒成功,可以继续监听用户是否输入了操作意图;反之则唤醒失败,可以继续监听用户是否再次进行智能终端唤醒。其中,声学特征可以体现为语音数据的频谱特征,例如,梅尔频率倒谱系数(英文:MelFrequencyCepstrumCoefficient,简称:MFCC)特征、感知线性预测(英文:PerceptualLinearPredictive,简称:PLP)特征等。通常,初始唤醒模型的性能并不能达到最优水平,需要在使用过程中不断进行模型优化,来提高模型的识别准确率。具体地,可以将唤醒成功的语音数据视为正例语音数据,将唤醒失败的语音数据视为反例语音数据,基于区分性准则对当前唤醒模型进行训练优化。在实际应用过程中,由于初始唤醒模型性能不高,导致唤醒成功的语音数据中可能存在误唤醒数据,例如,背景噪音、人声干扰、与唤醒词相近发音的非唤醒词等,均可能误唤醒智能终端,若将误唤醒数据作为正例语音数据进行模型优化,很可能导致唤醒模型的性能越来越差。
技术实现思路
本公开的主要目的是提供一种语音数据处理方法及装置、存储介质、电子设备,有助于提高唤醒模型的优化性能。为了实现上述目的,本公开提供一种语音数据处理方法,所述方法包括:获取用户输入的语音数据,所述语音数据包括成功唤醒智能终端的唤醒语音数据,以及表示操作意图的控制语音数据;提取所述语音数据的声学层面特征和/或语义层面特征,所述声学层面特征用于表示用户的发音特征,所述语义层面特征用于表示所述语音数据的文本特征;将所述声学层面特征和/或语义层面特征作为输入,经预先构建的语音判别模型处理后,确定所述唤醒语音数据是否为误唤醒数据。可选地,获取所述唤醒语音数据的方式为:判断预设时间段内是否连续采集到至少两条用于唤醒所述智能终端的语音数据;如果所述预设时间段内连续采集到至少两条用于唤醒所述智能终端的语音数据,且所述至少两条用于唤醒所述智能终端的语音数据经当前唤醒模型处理后的得分值d满足以下条件:d2≤d<d1,则将所述至少两条用于唤醒所述智能终端的语音数据确定为所述唤醒语音数据,d1为第一唤醒得分门限值,d2为第二唤醒得分门限值。可选地,所述声学层面特征包括当前唤醒模型的声学得分,则提取所述语音数据的声学层面特征包括:获取所述当前唤醒模型针对所述唤醒语音数据的每个语音单元输出的前N个识别结果;若各语音单元的前N个识别结果中包含该语音单元的正确发音,则判定该语音单元的识别结果为识别正确;根据各语音单元的识别结果,统计所述唤醒语音数据的识别准确度,作为所述当前唤醒模型的声学得分。可选地,所述声学层面特征还包括基频均值、短时平均能量、短时过零率中的至少一个;和/或,所述声学层面特征还包括清浊序列特征,则提取所述语音数据的声学层面特征包括:将基频均值、短时平均能量、短时过零率中的至少一个作为输入,经预先构建的清浊分类器处理后,输出所述唤醒语音数据的清浊序列{a1,a2,…,ai,…,am},其中,ai表示所述唤醒语音数据的第i个音素对应的清浊类别;计算所述唤醒语音数据的清浊序列与所述唤醒语音数据对应的唤醒词的清浊序列之间的相似度,作为所述清浊序列特征;和/或,所述声学层面特征还包括音调序列特征,则提取所述语音数据的声学层面特征包括:将基频均值、短时平均能量、短时过零率中的至少一个作为输入,经预先构建的音调分类器处理后,输出所述唤醒语音数据的音调序列{b1,b2,…,bj,…,bn},其中,bj表示所述唤醒语音数据的第j个音节对应的音调类别;计算所述唤醒语音数据的音调序列与所述唤醒语音数据对应的唤醒词的音调序列之间的相似度,作为所述音调序列特征;和/或,所述声学层面特征还包括语音单元的时间特征,则提取所述语音数据的声学层面特征包括:统计所述唤醒语音数据的每个语音单元的持续时间;利用各语音单元的持续时间,计算时间均值以及时间方差,作为所述语音单元的时间特征;和/或,所述声学层面特征还包括声纹特征,则提取所述语音数据的声学层面特征包括:利用预先构建的声纹提取模型提取所述唤醒语音数据的i-vector特征,作为所述声纹特征;和/或,所述声学层面特征还包括能量分布特征,则提取所述语音数据的声学层面特征包括:将所述语音数据切分为三部分ct-1、ct、ct+1,统计各部分的平均能量分布,作为所述能量分布特征;其中,ct表示所述唤醒语音数据,ct+1表示在所述唤醒语音数据之后采集到的包括所述控制语音数据的语音数据集,ct-1表示在所述唤醒语音数据之前采集到的语音数据集。可选地,所述语义层面特征包括语义顺滑度,则提取所述语音数据的语义层面特征包括:对所述语音数据进行分词处理,得到单词序列{w1,w2,…,wk,…,wf},其中,wk表示所述语音数据的第k个单词;计算f个单词按照所述单词序列的顺序依序出现的概率,作为所述语义顺滑度;和/或,所述语义层面特征包括词性序列的编辑距离,则提取所述语音数据的语义层面特征包括:对所述语音数据进行分词处理,得到词性序列{q1,q2,…,qk,…,qf},其中,qk表示所述语音数据的第k个单词的词性;计算所述语音数据的词性序列与每个样本语音数据的词性序列之间的编辑距离,并从中选取最小编辑距离,作为所述词性序列的编辑距离,所述样本语音数据为参与训练所述语音判别模型的数据;和/或,所述语义层面特征包括意图特征,则提取所述语音数据的语义层面特征包括:利用预先构建的意图分析模型提取所述控制语音数据的意图特征,所述意图特征包括有明确意图或无明确意图,或者,所述意图特征包括所述控制语音数据对应的意图类别。可选地,构建所述语音判别模型的方式为:采集样本语音数据,所述样本语音数据包括样本唤醒语音数据以及样本控制语音数据,所述样本唤醒语音数据的数据类型标注为正例唤醒语音数据或者反例唤醒语音数据,所述反例唤醒语音数据包括误唤醒数据以及唤醒失败的语音数据;提取所述样本语音数据的声学层面特征和/或语义层面特征;确定所述语音判别模型的拓扑结构;利用所述拓扑结构,以及所述样本语音数据的声学层面特征和/或语义层面特征,训练所述语音判别模型,直至所述语音判别模型输出的样本唤醒语音数据的数据类型与标注的数据类型相同。可选地,所述方法还包括:利用筛除了所述误唤醒数据的唤醒语音数据,优化当前唤醒模型。本公开提供一种语音数据处理装置,所述装置包括:语音数据获取模块,用于获取用户输入的语音数据,所述语音数据包括成功唤醒智能终端的唤醒语音数据,以及表示操作意图的控制语音数据;特征提取模块,用于提取所述语音数据的声学层面特征和/或语义层面特征,所述声学层面特征用于表示用户的发音特征,所述语义层面特征用于表示所述语音数据的文本特征;模型本文档来自技高网...

【技术保护点】
1.一种语音数据处理方法,其特征在于,所述方法包括:获取用户输入的语音数据,所述语音数据包括成功唤醒智能终端的唤醒语音数据,以及表示操作意图的控制语音数据;提取所述语音数据的声学层面特征和/或语义层面特征,所述声学层面特征用于表示用户的发音特征,所述语义层面特征用于表示所述语音数据的文本特征;将所述声学层面特征和/或语义层面特征作为输入,经预先构建的语音判别模型处理后,确定所述唤醒语音数据是否为误唤醒数据。

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,所述方法包括:获取用户输入的语音数据,所述语音数据包括成功唤醒智能终端的唤醒语音数据,以及表示操作意图的控制语音数据;提取所述语音数据的声学层面特征和/或语义层面特征,所述声学层面特征用于表示用户的发音特征,所述语义层面特征用于表示所述语音数据的文本特征;将所述声学层面特征和/或语义层面特征作为输入,经预先构建的语音判别模型处理后,确定所述唤醒语音数据是否为误唤醒数据。2.根据权利要求1所述的方法,其特征在于,获取所述唤醒语音数据的方式为:判断预设时间段内是否连续采集到至少两条用于唤醒所述智能终端的语音数据;如果所述预设时间段内连续采集到至少两条用于唤醒所述智能终端的语音数据,且所述至少两条用于唤醒所述智能终端的语音数据经当前唤醒模型处理后的得分值d满足以下条件:d2≤d<d1,则将所述至少两条用于唤醒所述智能终端的语音数据确定为所述唤醒语音数据,d1为第一唤醒得分门限值,d2为第二唤醒得分门限值。3.根据权利要求1或2所述的方法,其特征在于,所述声学层面特征包括当前唤醒模型的声学得分,则提取所述语音数据的声学层面特征包括:获取所述当前唤醒模型针对所述唤醒语音数据的每个语音单元输出的前N个识别结果;若各语音单元的前N个识别结果中包含该语音单元的正确发音,则判定该语音单元的识别结果为识别正确;根据各语音单元的识别结果,统计所述唤醒语音数据的识别准确度,作为所述当前唤醒模型的声学得分。4.根据权利要求3所述的方法,其特征在于,所述声学层面特征还包括基频均值、短时平均能量、短时过零率中的至少一个;和/或,所述声学层面特征还包括清浊序列特征,则提取所述语音数据的声学层面特征包括:将基频均值、短时平均能量、短时过零率中的至少一个作为输入,经预先构建的清浊分类器处理后,输出所述唤醒语音数据的清浊序列{a1,a2,…,ai,…,am},其中,ai表示所述唤醒语音数据的第i个音素对应的清浊类别;计算所述唤醒语音数据的清浊序列与所述唤醒语音数据对应的唤醒词的清浊序列之间的相似度,作为所述清浊序列特征;和/或,所述声学层面特征还包括音调序列特征,则提取所述语音数据的声学层面特征包括:将基频均值、短时平均能量、短时过零率中的至少一个作为输入,经预先构建的音调分类器处理后,输出所述唤醒语音数据的音调序列{b1,b2,…,bj,…,bn},其中,bj表示所述唤醒语音数据的第j个音节对应的音调类别;计算所述唤醒语音数据的音调序列与所述唤醒语音数据对应的唤醒词的音调序列之间的相似度,作为所述音调序列特征;和/或,所述声学层面特征还包括语音单元的时间特征,则提取所述语音数据的声学层面特征包括:统计所述唤醒语音数据的每个语音单元的持续时间;利用各语音单元的持续时间,计算时间均值以及时间方差,作为所述语音单元的时间特征;和/或,所述声学层面特征还包括声纹特征,则提取所述语音数据的声学层面特征包括:利用预先构建的声纹提取模型提取所述唤醒语音数据的i-vector特征,作为所述声纹特征;和/或,所述声学层面特征还包括能量分布特征,则提取所述语音数据的声学层面特征包括:将所述语音数据切分为三部分ct-1、ct、ct+1,统计各部分的平均能量分布,作为所述能量分布特征;其中,ct表示所述唤醒语音数据,ct+1表示在所述唤醒语音数据之后采集到的包括所述控制语音数据的语音数据集,ct-1表示在所述唤醒语音数据之前采集到的语音数据集。5.根据权利要求1或2所述的方法,其特征在于,所述语义层面特征包括语义顺滑度,则提取所述语音数据的语义层面特征包括:对所述语音数据进行分词处理,得到单词序列{w1,w2,…,wk,…,wf},其中,wk表示所述语音数据的第k个单词;计算f个单词按照所述单词序列的顺序依序出现的概率,作为所述语义顺滑度;和/或,所述语义层面特征包括词性序列的编辑距离,则提取所述语音数据的语义层面特征包括:对所述语音数据进行分词处理,得到词性序列{q1,q2,…,qk,…,qf},其中,qk表示所述语音数据的第k个单词的词性;计算所述语音数据的词性序列与每个样本语音数据的词性序列之间的编辑距离,并从中选取最小编辑距离,作为所述词性序列的编辑距离,所述样本语音数据为参与训练所述语音判别模型的数据;和/或,所述语义层面特征包括意图特征,则提取所述语音数据的语义层面特征包括:利用预先构建的意图分析模型提取所述控制语音数据的意图特征,所述意图特征包括有明确意图或无明确意图,或者,所述意图特征包括所述控制语音数据对应的意图类别。6.根据权利要求1或2所述的方法,其特征在于,构建所述语音判别模型的方式为:采集样本语音数据,所述样本语音数据包括样本唤醒语音数据以及样本控制语音数据,所述样本唤醒语音数据的数据类型标注为正例唤醒语音数据或者反例唤醒语音数据,所述反例唤醒语音数据包括误唤醒数据以及唤醒失败的语音数据;提取所述样本语音数据的声学层面特征和/或语义层面特征;确定所述语音判别模型的拓扑结构;利用所述拓扑结构,以及所述样本语音数据的声学层面特征和/或语义层面特征,训练所述语音判别模型,直至所述语音判别模型输出的样本唤醒语音数据的数据类型与标注的数据类型相同。7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:利用筛除了所述误唤醒数据的唤醒语音数据,优化当前唤醒模型。8.一种语音数据处理装置,其特征在于,所述装置包括:语音数据获取模块,用于获取用户输入的语音数据,所述语音数据包括成功唤醒智...

【专利技术属性】
技术研发人员:吴国兵潘嘉
申请(专利权)人:上海科大讯飞信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1