【技术实现步骤摘要】
基于拼音的语音唤醒方法、装置和计算机设备
本申请涉及到计算机领域,特别是涉及到基于拼音的语音唤醒方法、装置和计算机设备。
技术介绍
在自定义唤醒词系统中,或者自定义命令词识别模型中,现有技术一般采用音素序列预测或者音节分类的方法,通过预测的音素序列与设定的音素序列进行比对来确定下一步的操作。但语音识别场景中要面对同音字、近音字、多音字等复杂情况,且无法实现流式的高效识别,导致唤醒灵敏度差,唤醒效果不佳。
技术实现思路
本申请的主要目的为提供基于拼音的语音唤醒方法,旨在解决现有语音唤醒被唤醒的灵敏度不高的技术问题。本申请提出一种基于拼音的语音唤醒方法,包括:接收指定神经网络模型计算第二音频数据得到的第二概率向量,其中,所述第二音频数据为实时音频流第二时刻对应的音频数据;根据所述第二概率向量和第一时刻更新的第一前置概率向量,输出所述第二音频数据对应的指定概率值,其中,所述第一时刻为所述第二时刻的前一时刻;根据所述第二音频数据对应的指定概率值,更新所述第一前置概率向量,得到第二前 ...
【技术保护点】
1.一种基于拼音的语音唤醒方法,其特征在于,包括:/n接收指定神经网络模型计算第二音频数据得到的第二概率向量,其中,所述第二音频数据为实时音频流第二时刻对应的音频数据;/n根据所述第二概率向量和第一时刻更新的第一前置概率向量,输出所述第二音频数据对应的指定概率值,其中,所述第一时刻为所述第二时刻的前一时刻;/n根据所述第二音频数据对应的指定概率值,更新所述第一前置概率向量,得到第二前置概率向量;/n根据所述第二前置概率向量,输出第三时刻的第三音频数据对应的所述指定概率值,并更新所述第二前置概率向量,根据所述第一时刻、所述第二时刻以及所述第三时刻的处理过程,依次进行至所述实时 ...
【技术特征摘要】
1.一种基于拼音的语音唤醒方法,其特征在于,包括:
接收指定神经网络模型计算第二音频数据得到的第二概率向量,其中,所述第二音频数据为实时音频流第二时刻对应的音频数据;
根据所述第二概率向量和第一时刻更新的第一前置概率向量,输出所述第二音频数据对应的指定概率值,其中,所述第一时刻为所述第二时刻的前一时刻;
根据所述第二音频数据对应的指定概率值,更新所述第一前置概率向量,得到第二前置概率向量;
根据所述第二前置概率向量,输出第三时刻的第三音频数据对应的所述指定概率值,并更新所述第二前置概率向量,根据所述第一时刻、所述第二时刻以及所述第三时刻的处理过程,依次进行至所述实时音频流检测完毕,其中,所述第三时刻为所述第二时刻的后一时刻;
输出所述实时音频流对应的最大概率值,以及所述实时音频流对应的拼音序列;
判断所述拼音序列中是否存在预设唤醒词对应的目标拼音序列;
若是,则根据所述目标拼音序列进行唤醒。
2.根据权利要求1所述的基于拼音的语音唤醒方法,其特征在于,所述接收指定神经网络模型计算第二音频数据得到的第二概率向量的步骤之前,包括:
获取唤醒词样本包含的真实拼音类别,以及特定的混肴音对应的混淆拼音;
将所述混淆拼音合并入指定拼音类别,以将所述真实拼音类别处理为训练拼音类别,其中,所述指定拼音类别属于真实拼音类别中的一种,且所述混淆拼音与所述指定拼音类别具有满足预设相似度的发音;
将与所述训练拼音类别对应的拼音样本,输入至所述指定神经网络模型进行训练;
训练过程中时刻判断损失函数是否收敛;
若是,则终止训练并确定所述指定神经网络模型的各参数。
3.根据权利要求2所述的基于拼音的语音唤醒方法,其特征在于,所述混淆拼音包括前鼻音和/或后鼻音对应的第一类混淆拼音,所述将所述混淆拼音合并入指定拼音类别,以将所述真实拼音类别处理为训练拼音类别的步骤,包括:
获取第一拼音类别中的第一韵母,以及第二拼音类别的第二韵母,其中,所述第一拼音类别和所述第二拼音类别为所述真实拼音类别中的任一种;
判断所述第一韵母和所述第二韵母的发音相似度是否达到第一相似阈值;
若是,则判断所述第一拼音类别和所述第二拼音类别分别对应的音节组成结构,是否达到第二相似阈值;
若是,则将所述第一拼音类别和所述第二拼音类别归为同一训练拼音类别。
4.根据权利要求2所述的基于拼音的语音唤醒方法,其特征在于,所述混淆拼音包括平翘舌发音对应的第二类混淆拼音,所述将所述混淆拼音合并入指定拼音类别,以将所述真实拼音类别处理为训练拼音类别的步骤,包括:
获取第三拼音类别中的第一声母,以及第四拼音类别的第二声母,其中,所述第三拼音类别和所述第四拼音类别为所述真实拼音类别中的任一种;
判断所述第一声母和所述第二声母的发音相似度是否达到第三相似阈值;
若是,则判断所述第三拼音类别与第四拼音类别分别对应的音节组成结构,是否达到第四相似阈值;
若是,则将所述第三拼音类别和所述第四拼音类别归为同一训练拼音类别。
5.根据权利要求2所述的基于拼音的语音唤醒方法,其特征在于,所述指定神经网络模型包括依次衔接的GCNN层、RNN层以及Wave-attention结构,所述Wave-attention结构包括Headself-attention和Soft-attention两种注意力结构,所述将与所述训练拼音类别对应的拼音样本,输入至所述指...
【专利技术属性】
技术研发人员:徐泓洋,王广新,杨汉丹,
申请(专利权)人:深圳市友杰智新科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。