音频数据的存储方法、装置、终端及存储介质制造方法及图纸

技术编号:25805996 阅读:30 留言:0更新日期:2020-09-29 18:40
本申请实施例公开了一种音频数据的存储方法、装置、终端及存储介质,属于终端技术领域。该方法包括:获取通过麦克风采集的音频数据;通过k级语音唤醒识别模型对音频数据进行识别,得到各级语音唤醒识别模型对应的识别结果,其中,不同级别的语音唤醒识别模型对应不同识别维度,识别结果用于表征音频数据在对应识别维度上的识别通过情况,k为大于等于2的整数;根据识别结果将音频数据存储至第一存储区域,第一存储区域用于存储通过至少一级语音唤醒识别模型的音频数据。可以准确定位出唤醒失败原因,即在哪一级识别维度失败,从而有利于对唤醒失败原因进行准确分析和优化,进而提高了语音唤醒场景下的唤醒率。

【技术实现步骤摘要】
音频数据的存储方法、装置、终端及存储介质
本申请实施例涉及终端
,特别涉及一种音频数据的存储方法、装置、终端及存储介质。
技术介绍
随着智能设备应用越来越广泛,比如,智能手机、智能音箱和智能电视等,为了便于用户对智能设备的使用,通常会在智能设备中引入语音唤醒技术。相关技术中,在智能设备出厂之前,一般会进行语音唤醒功能测试,以保证语音唤醒功能的唤醒率,但是语音唤醒功能会受到智能设备的使用环境、使用用户差异的影响,因此,导致用户在使用具有语音唤醒功能的智能设备时,通常会出现语音唤醒失败的情况,而相关技术中,智能设备厂商无法准确定位出语音唤醒失败的原因,从而降低了语音唤醒功能的唤醒率。
技术实现思路
本申请实施例提供了一种音频数据的存储方法、装置、终端及存储介质。所述技术方案如下:一方面,本申请实施例提供了一种音频数据的存储方法,所述方法包括:获取通过麦克风采集的音频数据;通过k级语音唤醒识别模型对所述音频数据进行识别,得到各级所述语音唤醒识别模型对应的识别结果,其中,不同级别的语音唤醒识别模型对应不同识别维度,所述识别结果用于表征所述音频数据在对应识别维度上的识别通过情况,k为大于等于2的整数;根据所述识别结果将所述音频数据存储至第一存储区域,所述第一存储区域用于存储通过至少一级语音唤醒识别模型的音频数据。另一方面,本申请实施例提供了一种音频数据的存储装置,所述装置包括:获取模块,用于获取通过麦克风采集的音频数据;识别模块,用于通过k级语音唤醒识别模型对所述音频数据进行识别,得到各级所述语音唤醒识别模型对应的识别结果,其中,不同级别的语音唤醒识别模型对应不同识别维度,所述识别结果用于表征所述音频数据在对应识别维度上的识别通过情况,k为大于等于2的整数;第一存储模块,用于根据所述识别结果将所述音频数据存储至第一存储区域,所述第一存储区域用于存储通过至少一级语音唤醒识别模型的音频数据。另一方面,本申请实施例提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的音频数据的存储方法。另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的音频数据的存储方法。另一方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的音频数据的存储方法。本申请实施例提供的技术方案至少包括如下有益效果:在语音唤醒场景下,终端中设置有k级语音唤醒识别模型,当终端接收到麦克风采集到的音频数据后,可以将该音频数据输入k级语音唤醒识别模型,在不同识别维度上对音频数据进行识别,得到音频数据在不同识别维度上的识别通过情况,并根据识别结果将该音频数据存储在第一存储区域。通过设置不同识别维度的语音唤醒识别模块,可以得到音频数据在不同识别维度上的识别结果,并按照识别结果对音频数据进行存储,可以准确得到语音唤醒场景下的唤醒状态,对于唤醒失败的情况,可以准确定位出唤醒失败原因,即在哪一识别维度上唤醒失败,从而有利于对唤醒失败原因进行准确分析和优化,进而提高了语音唤醒场景下的唤醒率。附图说明图1示出了本申请一个示例性实施例示出的语音唤醒服务系统的架构图;图2示出了本申请一个示例性实施例示出的音频数据的存储方法的流程图;图3示出了本申请另一个示例性实施例示出的音频数据的存储方法的流程图;图4示出了本申请另一个示例性实施例示出的音频数据的存储方法的流程图;图5示出了本申请另一个示例性实施例示出的音频数据的存储方法的流程图;图6出了本申请一个示例性实施例示出的语音唤醒识别和存储过程的示意图;图7示出了本申请另一个示例性实施例示出的音频数据的存储方法的流程图;图8示出了本申请另一个示例性实施例示出的音频数据的存储方法的流程图;图9示出了本申请另一个示例性实施例示出的音频数据的存储方法的流程图;图10示出了本申请一个示例性实施例示出的语音唤醒训练的过程的示意图;图11示出了本申请一个示例性实施例示出的训练音频的存储过程的示意图;图12示出了本申请一个示例性实施例示出的两种模式下不同场景对应的音频数据存储方式的示意图;图13示出了本申请一个示例性实施例提供的音频数据的存储装置的结构框图;图14出了本申请一个示例性实施例提供的终端的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。请参考图1,其示出了本申请一个示例性实施例示出的语音唤醒服务系统的架构图,该语音唤醒服务系统包括终端101和服务器102。终端101是具有语音唤醒功能的设备,其可以是智能手机、智能音箱、平板、智能电视等设备,本申请实施例对此不构成限定。本申请实施例中,终端101具有应用模式(或用户模式)和调试模式(测试模式),对于应用模式下的音频数据(包括唤醒音频和测试音频)均存储在data目录下,对于调试模式喜爱的音频数据(包括唤醒音频和测试音频)均存储在sdcard目录下。可选的,终端101中设置有k级语音唤醒识别模型,用于为用户唤醒场景下提供语音识别功能。可选的,终端101可以定期将存储的音频数据发送至服务器102,由服务器102对音频数据进行分析,并对k级语音唤醒识别模型进行优化,并向终端101返回优化结构。服务器102与终端101通过有线或无线通信方式进行直接或间接地连接。服务器102是终端语音唤醒功能对应的后台服务器或业务服务器。其可以是一台服务器,若干台服务器构成的服务器集群或云服务器。本申请实施例中,服务器102通过接收终端101上报的音频数据,对该音频数据进行分析处理,从而优化k级语音唤醒识别模型,并将该优化后的语音唤醒识别模型推送至终端101。需要说明的是,服务器102可以和大量终端进行数据交互,即可以接收大量终端上报的音频数据,对大量音频数据进行数据分析,从而优化语音唤醒识别模型,并将优化后的语音唤醒识别模型推送至终端,以便提高终端语音唤醒功能的唤醒率。请参考图2,其示出了本申请一个示例性实施例示出的音频数据的存储方法的本文档来自技高网...

【技术保护点】
1.一种音频数据的存储方法,其特征在于,所述方法包括:/n获取通过麦克风采集的音频数据;/n通过k级语音唤醒识别模型对所述音频数据进行识别,得到各级所述语音唤醒识别模型对应的识别结果,其中,不同级别的语音唤醒识别模型对应不同识别维度,所述识别结果用于表征所述音频数据在对应识别维度上的识别通过情况,k为大于等于2的整数;/n根据所述识别结果将所述音频数据存储至第一存储区域,所述第一存储区域用于存储通过至少一级语音唤醒识别模型的音频数据。/n

【技术特征摘要】
1.一种音频数据的存储方法,其特征在于,所述方法包括:
获取通过麦克风采集的音频数据;
通过k级语音唤醒识别模型对所述音频数据进行识别,得到各级所述语音唤醒识别模型对应的识别结果,其中,不同级别的语音唤醒识别模型对应不同识别维度,所述识别结果用于表征所述音频数据在对应识别维度上的识别通过情况,k为大于等于2的整数;
根据所述识别结果将所述音频数据存储至第一存储区域,所述第一存储区域用于存储通过至少一级语音唤醒识别模型的音频数据。


2.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果将所述音频数据存储至第一存储区域,包括:
根据所述识别结果以及唤醒词对所述音频数据进行命名;
将命名后的所述音频数据存储至所述第一存储区域。


3.根据权利要求2所述的方法,其特征在于,所述通过k级语音唤醒识别模型对所述音频数据进行识别,得到各级所述语音唤醒识别模型对应的识别结果,包括:
通过第n级语音唤醒识别模型对所述音频数据进行第n级识别,得到第n识别结果,n为小于k的正整数;
响应于所述第n识别结果表征所述音频数据通过第n级识别,通过第n+1级语音唤醒识别模型对所述音频数据进行第n+1级识别,得到第n+1识别结果;
所述根据所述识别结果以及唤醒词对所述音频数据进行命名,包括:
响应于所述第n识别结果表征所述音频数据通过第n级识别,且所述第n+1识别结果表征所述音频数据未通过第n+1级识别,根据所述第n级语音唤醒识别模型的模型标识以及所述唤醒词对所述音频数据进行命名;
或者,
响应于第k识别结果表征所述音频数据通过第k级识别,根据所述第k级语音唤醒识别模型的模型标识以及所述唤醒词对所述音频数据进行命名。


4.根据权利要求3所述的方法,其特征在于,所述k级语音唤醒识别模型包括第一级语音唤醒识别模型、第二级语音唤醒识别模型和第三级语音唤醒识别模型;
所述通过第n级语音唤醒识别模型对所述音频数据进行第n级识别,得到第n识别结果,包括:
通过所述第一级语音唤醒识别模型对所述音频数据进行第一级识别,得到第一识别结果,所述第一识别结果用于表征所述音频数据中是否包含关键词,所述关键词为所述唤醒词的一部分;
或,
通过所述第二级语音唤醒识别模型对所述音频数据进行第二级识别,得到第二识别结果,所述第二识别结果用于表征所述音频数据中是否包含所述唤醒词;
所述通过第n+1级语音唤醒识别模型对所述音频数据进行第n+1级识别,包括:
通过所述第三级语音唤醒识别模型对所述音频数据进行第三级识别,得到第三识别结果,所述第三识别结果用于表征所述音频数据的声纹特征与目标声纹特征是否匹配。


5.根据权利要求4所述的方法,其特征在于,
所述第一级语音唤醒识别模型在数字信号处理器DSP上运行,所述第二级语音唤醒识别模型和所述第三级语音唤醒识别模型在中央处理器CPU上运行;
所述第一级语音...

【专利技术属性】
技术研发人员:陈喆
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1