语音识别方法、装置和存储介质制造方法及图纸

技术编号:16589942 阅读:50 留言:0更新日期:2017-11-18 18:18
本发明专利技术实施例公开了一种语音识别方法、装置和存储介质;本实施例在获取到音频数据后,可以通过DSP对该音频数据进行模糊语音识别,当确定存在唤醒词时,才由该DSP唤醒处于休眠状态的CPU,并通过CPU对该音频数据进行语义分析,然后,根据分析结果执行相应操作;该方案可以在保留移动性和语音唤醒功能的前提下,大大减少系统功耗,从而延长移动终端的待机时间,改善移动终端的性能。

Speech recognition method, device and storage medium

The embodiment of the invention discloses a voice recognition method and device, and storage medium; the embodiment to the audio data after obtaining the audio data, the fuzzy recognition by DSP, when confirming the existence of wake up words, when the DSP wake up dormant CPU, and the CPU of the audio data semantic analysis, and then according to the analysis results, the implementation of the corresponding operation; the premise of the scheme can be retained in the wake of mobility and speech, greatly reduce the power consumption of the system, thereby prolonging the standby time of the mobile terminal, to improve the performance of mobile terminal.

【技术实现步骤摘要】
语音识别方法、装置和存储介质
本专利技术涉及通信
,具体涉及一种语音识别方法、装置和存储介质。
技术介绍
随着人工智能的发展,智能硬件产品也得到快速发展。所谓智能硬件产品,指的集成了人工智能功能的硬件设备,比如智能移动终端(简称移动终端)等。智能硬件产品的核心必然离不开与“人”的互动,而语音交互作为自然、且学习成本低的交互方式已成为智能硬件产品的主流技术。在语音交互中,如何进行语音唤醒是一个重要的问题。以移动终端为例,在现有技术中,为了实现语音快速唤醒,一般都会要求终端的录音功能一直处于开启状态,且中央处理器(CPU,CentralProcessingUnit)能够随时对音频数据进行处理,即便在用户未说话时,CPU也不能休眠。由于CPU需要对各种音频数据进行编解码、播放、以及实现其他各种功能,因此,该方案对CPU的规格要求较高,而且,整个系统的功耗也非常大,对于使用电池供电的移动终端而言,会大大缩短其待机时间。为此,现有技术又提出了采用外接电源来进行供电,或采用一个物理按键来进行唤醒的方案,但是,若采用外接电源,则势必会影响其移动性,而若通过物理按键来唤醒,则无法实现语音唤醒;也就是说,在现有方案中,若需要保持其移动性和语音唤醒功能,则必然需要消耗大量的电池电量,这将大大减少移动终端的待机时间,影响移动终端的性能。
技术实现思路
本专利技术实施例提供一种语音识别方法、装置和存储介质;可以减少系统功耗,使得在保持移动性和语音唤醒功能的前提下,延长移动终端的待机时间,改善移动终端的性能。本专利技术实施例提供一种语音识别方法,包括:获取音频数据;通过数字信号处理器(DSP,DigitalSignalProcessing)对所述音频数据进行模糊语音识别;当模糊语音识别结果指示存在唤醒词时,由DSP唤醒CPU,所述CPU处于休眠状态;通过CPU对所述音频数据进行语义分析,并根据分析结果执行相应操作。相应的,本专利技术实施例提供一种语音识别装置,包括:获取单元,用于获取音频数据;模糊识别单元,用于通过DSP对所述音频数据进行模糊语音识别;唤醒单元,用于当模糊语音识别结果指示存在唤醒词时,由DSP唤醒CPU,所述CPU处于休眠状态;处理单元,用于通过CPU对所述音频数据进行语义分析,并根据分析结果执行相应操作。可选的,在一部分实施例中,所述模糊识别单元,具体用于通过DSP,采用模糊聚类分析对所述音频数据进行语音识别,得到模糊语音识别结果。例如,所述模糊识别单元,具体可以用于:根据模糊聚类分析建立模糊聚类神经网络;将所述模糊聚类神经网络作为概率密度函数的估计器,对所述音频数据包含唤醒词的概率进行预测;若预测结果指示概率大于等于设定值,则生成指示存在唤醒词的模糊语音识别结果;若预测结果指示概率小于设定值,则生成指示不存在唤醒词的模糊语音识别结果。可选的,在一部分实施例中,所述模糊识别单元,具体用于通过DSP,采用模糊匹配算法对所述音频数据进行语音识别,得到模糊语音识别结果。例如,所述模糊识别单元,具体可以用于获取唤醒词读音的特征图,得到标准特征图;分析所述音频数据中各个单词读音的特征图,得到待匹配特征图;根据预设的隶属度函数计算各个待匹配特征图属于标准特征图的程度值;若所述程度值大于等于预设值,则生成指示存在唤醒词的模糊语音识别结果;若所述程度值小于预设值,则生成指示不存在唤醒词的模糊语音识别结果。可选的,在一部分实施例中,所述语音识别装置还可以包括精确识别单元,如下:所述精确识别单元,用于从DSP中读取所述音频数据中包含唤醒词的数据,得到唤醒数据;通过所述CPU对所述唤醒数据进行语音识别;当语音识别结果指示存在唤醒词时,触发处理单元执行通过CPU对所述音频数据进行语义分析的操作;当语音识别结果指示不存在唤醒词时,将CPU设置为休眠,并触发获取单元执行获取音频数据的操作。其中,所述精确识别单元,具体可以用于将所述CPU的工作状态设置为第一状态,所述第一状态为单核且低频,在所述第一状态下,对所述唤醒数据进行语音识别。可选的,在一部分实施例中,所述处理单元,具体可以用于将所述CPU的工作状态设置为第二状态,所述第二状态为多核且高频,在所述第二状态下,对所述音频数据进行语义分析。可选的,在一部分实施例中,所述处理单元,具体可以用于根据所述音频数据对应的唤醒词确定语义场景,根据语义场景确定CPU的工作核数和主频大小,根据所述工作核数和主频大小对CPU的工作状态进行设置,得到第三状态,在所述第三状态下,对所述音频数据进行语义分析。可选的,在一部分实施例中,所述语音识别装置还可以包括过滤单元,如下:所述过滤单元,用于对所述音频数据进行降噪和/或回音消除处理。相应的,本专利技术实施例还提供一种移动终端,所述移动终端包括存储介质和处理器,所述存储介质存储有多条指令,所述处理器用于加载并执行所述指令,所述指令用于实现本专利技术实施例所提供的任一种语音识别方法中的步骤。此外,本专利技术实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本专利技术实施例所提供的任一种语音识别方法中的步骤。本专利技术实施例在获取到音频数据后,可以通过DSP对该音频数据进行模糊语音识别,当确定存在唤醒词时,才由该DSP唤醒处于休眠状态的CPU,并通过CPU对该音频数据进行语义分析,然后,根据分析结果执行相应操作;由于该方案采用了运行功耗较低的DSP,代替运行功耗较高的CPU来对音频数据进行监听,因此,CPU无需一直处于被唤醒状态,而是可以处于休眠状态,并在需要时才被唤醒;所以,相对于现有方案只能通过外接电源或通过物理按键来唤醒的方案而言,该方案可以在保留移动性和语音唤醒功能的前提下,大大减少系统功耗,从而延长移动终端的待机时间,改善移动终端的性能。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本专利技术实施例提供的移动终端的架构图;图1b是本专利技术实施例提供的语音识别方法的场景示意图;图1c是本专利技术实施例提供的语音识别方法的流程图;图1d是本专利技术实施例提供的语音识别方法的框图;图2a是本专利技术实施例提供的语音识别方法的另一流程图;图2b是本专利技术实施例提供的语音识别方法的另一框图;图3a是本专利技术实施例提供的语音识别装置的结构示意图;图3b是本专利技术实施例提供的语音识别装置的另一结构示意图;图4是本专利技术实施例提供的移动终端的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种语音识别方法、装置和存储介质。该语音识别装置具体可以集成在移动终端,比如手机、穿戴式智能设备、平板电脑、和/或笔记本电脑等设备中。例如,以该语音识别装置集成在移动终端中为例,参见图1a,可以在移动终端中设置一DSP,比如,可以将该DSP设置在编码本文档来自技高网...
语音识别方法、装置和存储介质

【技术保护点】
一种语音识别方法,其特征在于,包括:获取音频数据;通过数字信号处理器对所述音频数据进行模糊语音识别;当模糊语音识别结果指示存在唤醒词时,由数字信号处理器唤醒中央处理器,所述中央处理器处于休眠状态;通过中央处理器对所述音频数据进行语义分析,并根据分析结果执行所述分析结果相应的操作。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取音频数据;通过数字信号处理器对所述音频数据进行模糊语音识别;当模糊语音识别结果指示存在唤醒词时,由数字信号处理器唤醒中央处理器,所述中央处理器处于休眠状态;通过中央处理器对所述音频数据进行语义分析,并根据分析结果执行所述分析结果相应的操作。2.根据权利要求1所述的方法,其特征在于,所述通过数字信号处理器对所述音频数据进行模糊语音识别,包括:通过数字信号处理器,采用模糊聚类分析对所述音频数据进行语音识别,得到模糊语音识别结果。3.根据权利要求2所述的方法,其特征在于,所述通过数字信号处理器,采用模糊聚类分析对所述音频数据进行语音识别,得到模糊语音识别结果,包括:根据模糊聚类分析建立模糊聚类神经网络;将所述模糊聚类神经网络作为概率密度函数的估计器,对所述音频数据包含唤醒词的概率进行预测;若预测结果指示概率大于等于设定值,则生成指示存在唤醒词的模糊语音识别结果;若预测结果指示概率小于设定值,则生成指示不存在唤醒词的模糊语音识别结果。4.根据权利要求1所述的方法,其特征在于,所述通过数字信号处理器对所述音频数据进行模糊语音识别,包括:通过数字信号处理器,采用模糊匹配算法对所述音频数据进行语音识别,得到模糊语音识别结果。5.根据权利要求4所述的方法,其特征在于,所述通过数字信号处理器,采用模糊匹配算法对所述音频数据进行语音识别,得到模糊语音识别结果,包括:获取唤醒词读音的特征图,得到标准特征图;分析所述音频数据中各个单词读音的特征图,得到待匹配特征图;根据预设的隶属度函数计算各个待匹配特征图属于标准特征图的程度值;若所述程度值大于等于预设值,则生成指示存在唤醒词的模糊语音识别结果;若所述程度值小于预设值,则生成指示不存在唤醒词的模糊语音识别结果。6.根据权利要求1所述的方法,其特征在于,所述通过中央处理器对所述音频数据进行语义分析之前,还包括:从数字信号处理器中读取所述音频数据中包含唤醒词的数据,得到唤醒数据;通过所述中央处理器对所述唤醒数据进行语音识别;当语音识别结果指示存在唤醒词时,执行通过中央处理器对所述音频数据进行语义分析的步骤;当语音识别结果指示不存在唤醒词时,将中央处理器设置为休眠,并返回执行获取音频数据的步骤。7.根据权利要求6所述的方法,其特征在于,所述通过所述中央处理器对所述唤醒数据进行语音识别,包括:将所述中央处理器的工作状态设置为第一状态,所述第一状态为单核且低...

【专利技术属性】
技术研发人员:唐惠忠
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1