语音识别方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:22975811 阅读:34 留言:0更新日期:2019-12-31 23:50
本公开公开了一种语音识别方法,其特征在于,包括:接收输入语音信号;确定所述输入语音信号的语谱图;从所述语谱图中提取M个备选区域,M为正整数;确定所述M个备选区域的特征向量;根据所述M个备选区域的特征向量识别所述输入语音信号。本公开实施例提供的语音识别方法、装置、电子设备和计算机可读存储介质,能够从输入语音信号的语谱图中确定备选区域,并根据备选区域对所述输入语音信号进行识别,不仅性能优异,还能够识别出所述输入语音信号的有效区域。

Speech recognition method, device, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
语音识别方法、装置、电子设备和计算机可读存储介质
本公开涉及信息处理领域,尤其涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着语音识别技术的进步,与语音识别相关的应用愈发丰富,例如智能音箱设备可以根据用户的语音与用户进行交互,还可以接入互联网作为各种应用的接口。智能音箱需要基于语音识别技术被唤醒(keywordspotting,KWS)和/或识别用户的各种语音命令。现有的语音识别技术经历了多次迭代,例如包括模板匹配的方法,将输入语音和模板语音的特征进行对比,基于对比结果确定是否唤醒或识别,还例如采用隐式马尔科夫模型-高斯混合模型(HMM-GMM)模型将输入语音识别为关键词类或非关键词类后来确定是否唤醒或识别。但是现有的语音识别方式对于输入的复杂语音,其性能比较常规,并且无法识别输入语音的有效区域。
技术实现思路
本公开实施例提供语音识别方法,装置,电子设备,和计算机可读存储介质,能够从输入语音信号的语谱图中确定备选区域,并根据备选区域对所述输入语音信号进行识别,不仅性能优异,还能够识别出所述输入语音信号的有效区域。第一方面,本公开实施例提供一种语音识别方法,其特征在于,包括:接收输入语音信号;确定所述输入语音信号的语谱图;从所述语谱图中提取M个备选区域,M为正整数;确定所述M个备选区域的特征向量;根据所述M个备选区域的特征向量识别所述输入语音信号。进一步的,确定所述M个备选区域的特征向量,包括:通过神经网络确定所述M个备选区域的特征向量,所述神经网络与目标语音信号对应。进一步的,根据所述M个备选区域的特征向量识别所述输入语音信号,包括:通过所述神经网络根据所述M个备选区域的特征向量识别所述输入语音信号。进一步的,根据所述M个备选区域的特征向量识别所述输入语音信号,包括:将所述M个备选区域的特征向量输入支持向量机,以确定所述M个备选区域的目标匹配值,所述支持向量机与所述目标语音信号对应;根据所述M个备选区域的目标匹配值识别所述输入语音信号。进一步的,根据所述M个备选区域的目标匹配值识别所述语音信号,包括:确定所述M个备选区域中包括第一备选区域,所述第一备选区域的目标匹配值满足预设条件;根据所述第一备选区域识别所述语音信号。进一步的,所述M个备选区域与M个起止时间段一一对应;根据所述M个备选区域的特征向量识别所述输入语音信号,包括:根据与所述M个备选区域对应的起止时间段和所述M个备选区域的特征向量确定所述输入语音信号中与所述预设语音信号匹配的起止时间段。进一步的,确定所述输入语音信号的语谱图,包括:将所述输入语音信号拆分为N个帧,N为正整数;提取所述N个帧中的每一个帧的Q个频率特征值,Q为正整数;将N*Q个频率特征值作为所述语谱图。进一步的,提取所述N个帧中的每一个帧的Q个频率特征值,包括:通过快速傅里叶变换对所述N个帧进行预处理,得到所述N个帧中的每一个帧的Q个初始特征值;对所述N个帧中的每一个帧的Q个初始特征值的幅值进行log运算,得到所述N个帧中的每一个帧的Q个频率特征值。进一步的,从所述语谱图中提取M个备选区域,包括:通过选择性搜索方式从所述语谱图中提取所述M个备选区域,所述M个备选区域中的每一个包括时间上连续的帧。第二方面,本公开实施例提供一种语音识别装置,其特征在于,包括:接收模块,用于接收输入语音信号;确定模块,用于确定所述输入语音信号的语谱图;提取模块,用于从所述语谱图中提取M个备选区域,M为正整数;所述确定模块,还用于确定所述M个备选区域的特征向量;识别模块,用于根据所述M个备选区域的特征向量识别所述输入语音信号。进一步的,所述确定模块还用于:通过神经网络确定所述M个备选区域的特征向量,所述神经网络与目标语音信号对应。进一步的,所述识别模块还用于括:通过所述神经网络根据所述M个备选区域的特征向量识别所述输入语音信号。进一步的,所述识别模块还用于:将所述M个备选区域的特征向量输入支持向量机,以确定所述M个备选区域的目标匹配值,所述支持向量机与所述目标语音信号对应;根据所述M个备选区域的目标匹配值识别所述输入语音信号。进一步的,所述识别模块还用于:确定所述M个备选区域中包括第一备选区域,所述第一备选区域的目标匹配值满足预设条件;根据所述第一备选区域识别所述语音信号。进一步的,所述M个备选区域与M个起止时间段一一对应;所述识别模块还用于:根据与所述M个备选区域对应的起止时间段和所述M个备选区域的特征向量确定所述输入语音信号中与所述预设语音信号匹配的起止时间段。进一步的,所述确定模块还用于:将所述输入语音信号拆分为N个帧,N为正整数;提取所述N个帧中的每一个帧的Q个频率特征值,Q为正整数;将N*Q个频率特征值作为所述语谱图。进一步的,所述确定模块还用于:通过快速傅里叶变换对所述N个帧进行预处理,得到所述N个帧中的每一个帧的Q个初始特征值;对所述N个帧中的每一个帧的Q个初始特征值的幅值进行log运算,得到所述N个帧中的每一个帧的Q个频率特征值。进一步的,所述提取模块还用于:通过选择性搜索方式从所述语谱图中提取所述M个备选区域,所述M个备选区域中的每一个包括时间上连续的帧。第三方面,本公开实施例提供一种电子设备,包括:存储器,用于存储计算机可读指令;以及与所述存储器耦合的一个或多个处理器,用于运行所述计算机可读指令,使得所述处理器运行时实现前述第一方面中的任一所述语音识别方法。第四方面,本公开实施例提供一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行前述第一方面中的任一所述语音识别方法。本公开公开了一种语音识别方法、装置、电子设备和计算机可读存储介质。其中所述语音识别方法,其特征在于,包括:接收输入语音信号;确定所述输入语音信号的语谱图;从所述语谱图中提取M个备选区域,M为正整数;确定所述M个备选区域的特征向量;根据所述M个备选区域的特征向量识别所述输入语音信号。本公开实施例提供的语音识别方法、装置、电子设备和计算机可读存储介质,能够从输入语音信号的语谱图中确定备选区域,并根据备选区域对所述输入语音信号进行识别,不仅性能优异,还能够识别出所述输入语音信号的有效区域。上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本公开实施例提供的语音识别方法实施例的流程图;图2为本公开提供本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n接收输入语音信号;/n确定所述输入语音信号的语谱图;/n从所述语谱图中提取M个备选区域,M为正整数;/n确定所述M个备选区域的特征向量;/n根据所述M个备选区域的特征向量识别所述输入语音信号。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
接收输入语音信号;
确定所述输入语音信号的语谱图;
从所述语谱图中提取M个备选区域,M为正整数;
确定所述M个备选区域的特征向量;
根据所述M个备选区域的特征向量识别所述输入语音信号。


2.根据权利要求1所述的语音识别方法,其特征在于,确定所述M个备选区域的特征向量,包括:
通过神经网络确定所述M个备选区域的特征向量,所述神经网络与目标语音信号对应。


3.根据权利要求2所述的语音识别方法,其特征在于,根据所述M个备选区域的特征向量识别所述输入语音信号,包括:
通过所述神经网络根据所述M个备选区域的特征向量识别所述输入语音信号。


4.根据权利要求2所述的语音识别方法,其特征在于,根据所述M个备选区域的特征向量识别所述输入语音信号,包括:
将所述M个备选区域的特征向量输入支持向量机,以确定所述M个备选区域的目标匹配值,所述支持向量机与所述目标语音信号对应;
根据所述M个备选区域的目标匹配值识别所述输入语音信号。


5.根据权利要求4所述的语音识别方法,其特征在于,根据所述M个备选区域的目标匹配值识别所述语音信号,包括:
确定所述M个备选区域中包括第一备选区域,所述第一备选区域的目标匹配值满足预设条件;
根据所述第一备选区域识别所述语音信号。


6.根据权利要求1所述的语音识别方法,其特征在于,所述M个备选区域与M个起止时间段一一对应;
根据所述M个备选区域的特征向量识别所述输入语音信号,包括:
根据与所述M个备选区域对应的起止时间段和所述M个备选区域的特征向量确定所述输入语音信号中与所述预设语音信号匹配的起止时间段。
<...

【专利技术属性】
技术研发人员:王超冯大航陈孝良常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1