唤醒音频确定方法、装置、设备及存储介质制造方法及图纸

技术编号：26794734 阅读：50 留言：0更新日期：2020-12-22 17:11

本申请公开了一种唤醒音频确定方法、装置、设备及存储介质，属于语音技术领域。本申请实施例分别将唤醒音频和非唤醒音频进行建模，各自对应有多个语句状态，形成语句状态序列，这样对音频的音频特征进行分类时，则能够分别确定出该音频更像是唤醒音频还是更像是非唤醒音频。该过程中，直接针对唤醒音频和非唤醒音频建模，且二者彼此独立，而不是针对每个音素进行建模，也就不需要针对每个帧级别的标注数据训练得到的模型，识别过程中也不需要针对每个音素确定出对应的识别结果，能够大大减小计算量，提高识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
唤醒音频确定方法、装置、设备及存储介质
本申请涉及语音
，特别涉及一种唤醒音频确定方法、装置、设备及存储介质。
技术介绍
近年来，随着音频处理技术的不断发展，智能音箱、车载语音交互系统等智能语音交互系统不断普及，为了减少用户操作，提供了一种语音唤醒功能，通过对采集到的语音进行识别，确定是否为唤醒语音，进而能够实现对设备的语音唤醒。相关技术中，唤醒语音确定方法通常是：对待处理语音进行特征提取，得到固定长度的语音特征，将其输入唤醒声学模型中进行分类。该唤醒声学模型的训练所需的样本数据需要具备帧级别的标注数据，而帧级别的标注数据通常需要由一个预先训练较好的声学模型对语音数据进行对齐获得。上述通过训练好的声学模型对其得到标注数据的方式中，对齐的结果会极大的影响后续模型的性能。例如，如果对齐模型性能较差，对齐结果准确度较低，基于准确度低的对齐结果作为标注数据，训练得到的模型的性能就会较差。如果想要得到准确度高的标注数据，则需要使用大规模的样本数据对声学模型进行重新训练，这样成本较大，效率很低。r>
技术实现思路
...

【技术保护点】
1.一种唤醒音频确定方法，其特征在于，所述方法包括：/n对音频进行特征提取，得到所述音频的音频特征；/n对所述音频的音频特征进行分类，得到所述音频与多种语句状态序列的匹配程度，所述多种语句状态序列分别至少包括唤醒音频和非唤醒音频包括的多种语句状态；/n根据所述音频与多种语句状态序列的匹配程度，确定所述音频是否为唤醒音频。/n

【技术特征摘要】
1.一种唤醒音频确定方法，其特征在于，所述方法包括：
对音频进行特征提取，得到所述音频的音频特征；
对所述音频的音频特征进行分类，得到所述音频与多种语句状态序列的匹配程度，所述多种语句状态序列分别至少包括唤醒音频和非唤醒音频包括的多种语句状态；
根据所述音频与多种语句状态序列的匹配程度，确定所述音频是否为唤醒音频。

2.根据权利要求1所述的方法，其特征在于，所述对音频进行特征提取，得到所述音频的音频特征，包括：
对音频中每个音频帧进行特征提取，得到所述每个音频帧的音频特征；
所述对所述音频的音频特征进行分类，得到所述音频与多种语句状态序列的匹配程度，包括：
对所述每个音频帧的音频特征进行分类，得到所述每个音频帧与多种语句状态的匹配程度；
根据所述每个音频帧与多种语句状态的匹配程度，获取所述音频与所述多种语句状态序列的匹配程度。

3.根据权利要求2所述的方法，其特征在于，所述对所述每个音频帧的音频特征进行分类，得到所述每个音频帧与多种语句状态的匹配程度，包括：
对所述每个音频帧的音频特征进行分类，得到所述每个音频帧对应所述多种语句状态的概率分布；
所述根据所述每个音频帧与多种语句状态的匹配程度，获取所述音频与所述多种语句状态序列的匹配程度，包括：
根据所述每个音频帧对应所述多种语句状态的概率分布，以及包括所述多种语句状态的词图，获取所述音频与所述多种语句状态序列对应路径的匹配程度。

4.根据权利要求2所述的方法，其特征在于，所述根据所述音频与多种语句状态序列的匹配程度，确定所述音频是否为唤醒音频，包括：
获取所述音频与唤醒音频的语句状态序列的第一匹配程度与第二匹配程度的差值；
响应于所述差值大于目标阈值，确定所述音频为唤醒音频；
响应于所述差值小于所述目标阈值，确定所述音频为非唤醒音频。

5.根据权利要求1所述的方法，...

【专利技术属性】
技术研发人员：陈孝良，冯大航，陈天峰，常乐，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人