语音处理方法和装置制造方法及图纸

技术编号:19264945 阅读:25 留言:0更新日期:2018-10-27 03:11
本发明专利技术揭示了一种语音处理方法和装置,所述方法包括以下步骤:对声音信号进行语音活动检测,从声音信号中提取出语音信号;对语音信号进行浊音检测,从语音信号中提取出浊音片段;计算出浊音片段的过零率特征参数;利用过零率特征参数进行关键词匹配。从而滤除了语音信号中的清音、噪音等干扰项,只对有效语音(浊音片段)进行关键词匹配,一方面大大减小了特征参数的计算量,有效降低了系统功耗,另一方面提高了特征参数的稳健性,进而提高了关键词匹配的准确度。并且,本发明专利技术实施例采用的过零率特征参数的计算量更小,进一步降低了系统功耗,同时本发明专利技术实施例采用高斯混合模型进行关键词匹配,进一步提高了关键词匹配的准确度。

【技术实现步骤摘要】
语音处理方法和装置
本专利技术涉及电子
,特别是涉及到一种语音处理方法和装置。
技术介绍
语音唤醒技术是人工智能的一个分支,语音唤醒技术的应用领域很广泛,比如可以应用于机器人、手机、可穿戴设备、智能家居、车载等领域。许多带有语音识别功能的设备都会利用语音唤醒技术作为人与机器互动的开始。语音唤醒是指用户说出特定的语音指令时,设备从休眠状态切换到工作状态,并给出指定响应。唤醒技术的用途在于,用户对于设备的操作可以完全用语音进行,脱离双手的帮助;同时,利用唤醒这样的机制,设备不需要时时处于工作状态,大大节省能耗。语音唤醒的关键是进行关键词匹配。目前在进行关键词匹配时,首先对声音信号进行语音活动检测(VoiceActivityDetection,VAD),从声音信号中提取出语音信号,然后利用语音信号进行关键词匹配,判断语音信号中是否包含唤醒关键词。由于语音活动检测不完善,导致有效语音(即浊音)的首尾和中间都可能存在噪音和清音,并且清音复杂多变,从而使得系统的计算量较大,增大了系统的功耗。同时,清音和噪音等干扰项对匹配的特征参数的稳健性产生了不利影响,进而影响关键词匹配的准确度。
技术实现思路
本专利技术的主要目的为提供一种语音处理方法和装置,旨在降低系统功耗,提高关键词匹配的准确度。为达以上目的,本专利技术实施例提出一种语音处理方法,所述方法包括以下步骤:对声音信号进行语音活动检测,从所述声音信号中提取出语音信号;对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段;计算出所述浊音片段的过零率特征参数;利用所述过零率特征参数进行关键词匹配。可选地,所述根据所述浊音片段计算过零率特征参数的步骤包括:将所述浊音片段拆分为至少两个语音帧;将每个语音帧拆分为至少两个子帧;计算出每个语音帧中各个子帧的平均过零率;将每个语音帧中的所有子帧的平均过零率组成为所述语音帧的特征向量,将所述浊音片段中所有语音帧的特征向量作为所述浊音片段的过零率特征参数。可选地,相邻两个语音帧的帧间重叠长度是所述语音帧长度的一半。可选地,所述利用所述过零率特征参数进行关键词匹配的步骤包括:将所述过零率特征参数输入高斯混合模型进行匹配度评判,所述高斯混合模型为利用所述关键词声音样本训练出的声学参数模型;根据评判结果判断是否匹配成功。可选地,所述根据评判结果判断是否匹配成功的步骤包括:获取所述高斯混合模型输出的针对所述浊音片段中每个语音帧的特征向量的评判分数;计算所有特征向量的评判分数的平均值;判断所述平均值是否大于或等于阈值;当所述平均值大于或等于阈值时,判定匹配成功。可选地,所述对声音信号进行语音活动检测的步骤包括:基于过零率对声音信号进行语音活动检测,所述过零率的门限值为第一门限值;所述对所述语音信号进行浊音检测的步骤包括:基于过零率对所述语音信号进行浊音检测,所述过零率的门限值为第二门限值,且所述第二门限值大于所述第一门限值。可选地,所述第二门限值为所述语音信号的平均幅值的8%-15%。可选地,所述对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段的步骤包括:针对所述语音信号的语音帧中相邻的两个采样点tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则认定所述语音帧过一次零,据此统计出所述语音帧的过零率,其中T2为第二门限值;从所述语音信号中提取出过零率大于预设值的语音帧组成浊音片段。可选地,所述对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段的步骤包括:针对所述语音信号中相邻的采样点对tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则判决过零率为1,否则判决过零率为0,其中T2为第二门限值;从所述语音信号中提取出所有过零率为1的采样点对所对应的数据段组成浊音片段。可选地,所述利用所述过零率特征参数进行关键词匹配的步骤之后还包括:当关键词匹配成功时,唤醒设备。本专利技术实施例同时提出一种语音处理装置,所述装置包括:第一检测模块,用于对声音信号进行语音活动检测,从所述声音信号中提取出语音信号;第二检测模块,用于对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段;计算模块,用于计算出所述浊音片段的过零率特征参数;匹配模块,用于利用所述过零率特征参数进行关键词匹配。可选地,所述计算模块包括:第一拆分单元,用于将所述浊音片段拆分为至少两个语音帧;第二拆分单元,用于将每个语音帧拆分为至少两个子帧;计算单元,用于计算出每个语音帧中各个子帧的平均过零率;组合单元,用于将每个语音帧中的所有子帧的平均过零率组成为所述语音帧的特征向量,将所述浊音片段中所有语音帧的特征向量作为所述浊音片段的过零率特征参数。可选地,所述匹配模块包括:输入单元,用于将所述过零率特征参数输入高斯混合模型进行匹配度评判,所述高斯混合模型为利用所述关键词声音样本训练出的声学参数模型;判断单元,用于根据评判结果判断是否匹配成功。可选地,所述判断单元包括:获取子单元,用于获取所述高斯混合模型输出的针对所述浊音片段中每个语音帧的特征向量的评判分数;计算子单元,用于计算所有特征向量的评判分数的平均值;判断子单元,用于判断所述平均值是否大于或等于阈值;判定子单元,用于当所述平均值大于或等于阈值时,判定匹配成功。可选地,所述第一检测模块用于:基于过零率对声音信号进行语音活动检测,所述过零率的门限值为第一门限值;所述第二检测模块用于:基于过零率对所述语音信号进行浊音检测,所述过零率的门限值为第二门限值,且所述第二门限值大于所述第一门限值。可选地,所述第二检测模块包括:统计单元,用于针对所述语音信号的语音帧中相邻的两个采样点tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则认定所述语音帧过一次零,据此统计出所述语音帧的过零率,其中T2为第二门限值;第一提取单元,用于从所述语音信号中提取出过零率大于预设值的语音帧组成浊音片段。可选地,所述第二检测模块包括:判决单元,用于针对所述语音信号中相邻的采样点对tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则判决过零率为1,否则判决过零率为0,其中T2为第二门限值;第二提取单元,用于从所述语音信号中提取出所有过零率为1的采样点对所对应的数据段组成浊音片段。可选地,所述装置还包括唤醒模块,所述唤醒模块用于:当关键词匹配成功时,唤醒设备。本专利技术实施例还提出一种电子设备,其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行前述语音处理方法。本专利技术实施例所提供的一种语音处理方法,通过从语音信号中提取出浊音片段,并计算出浊音片段的过零率特征参数,利用浊音片段的过零率特征参数进行关键词匹配,从而滤除了语音信号中的清音、噪音等干扰项,只对有效语音(浊音片段)进行关键词匹配,一方面大大减小了特征参数的计算量,有效降低了系统功耗,另一方面提高了特征参数的稳健性,进而提高了关键词匹配的准确度。并且,相对于现有技术中采用的LPC、PLP本文档来自技高网...

【技术保护点】
1.一种语音处理方法,其特征在于,包括以下步骤:对声音信号进行语音活动检测,从所述声音信号中提取出语音信号;对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段;计算出所述浊音片段的过零率特征参数;利用所述过零率特征参数进行关键词匹配。

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括以下步骤:对声音信号进行语音活动检测,从所述声音信号中提取出语音信号;对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段;计算出所述浊音片段的过零率特征参数;利用所述过零率特征参数进行关键词匹配。2.根据权利要求1所述的语音处理方法,其特征在于,所述根据所述浊音片段计算过零率特征参数的步骤包括:将所述浊音片段拆分为至少两个语音帧;将每个语音帧拆分为至少两个子帧;计算出每个语音帧中各个子帧的平均过零率;将每个语音帧中的所有子帧的平均过零率组成为所述语音帧的特征向量,将所述浊音片段中所有语音帧的特征向量作为所述浊音片段的过零率特征参数。3.根据权利要求2所述的语音处理方法,其特征在于,所述利用所述过零率特征参数进行关键词匹配的步骤包括:将所述过零率特征参数输入高斯混合模型进行匹配度评判,所述高斯混合模型为利用所述关键词声音样本训练出的声学参数模型;根据评判结果判断是否匹配成功。4.根据权利要求3所述的语音处理方法,其特征在于,所述根据评判结果判断是否匹配成功的步骤包括:获取所述高斯混合模型输出的针对所述浊音片段中每个语音帧的特征向量的评判分数;计算所有特征向量的评判分数的平均值;判断所述平均值是否大于或等于阈值;当所述平均值大于或等于阈值时,判定匹配成功。5.根据权利要求1-4任一项所述的语音处理方法,其特征在于:所述对声音信号进行语音活动检测的步骤包括:基于过零率对声音信号进行语音活动检测,所述过零率的门限值为第一门限值;所述对所述语音信号进行浊音检测的步骤包括:基于过零率对所述语音信号进行浊音检测,所述过零率的门限值为第二门限值,且所述第二门限值大于所述第一门限值。6.一种语音处理装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:安黄彬
申请(专利权)人:深圳市沃特沃德股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1