一种语音处理方法及设备技术

技术编号：21574174 阅读：22 留言：0更新日期：2019-07-10 16:07

本申请实施例公开了一种语音处理方法及设备。所述方法包括：对音频数据进行语音活动性检测，得到语音数据；从所述语音数据中识别出唤醒词；确定所述唤醒词在所述语音数据中的词尾结束时刻；对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令。利用本申请提供的语音处理方式进行语音识别，可以准确划分出语音数据中语音指令的起始时刻，避免将唤醒词中冗余信息代入至后续的语音指令中，提高智能语音识别的准确性。

A Speech Processing Method and Equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种语音处理方法及设备
本申请涉及智能语音处理
，特别涉及一种语音处理方法及设备。
技术介绍
近年来，智能语音交互(IntelligentSpeechInteraction)技术得到迅速发展，智能语音交互技术基于语音识别、语音合成、自然语言理解等技术，可以为企业在多种实际应用场景下赋予产品“能听、会说、懂你”式的智能人机交互体验。智能语音交互技术可以适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等诸多场景，在金融、保险、司法、电商等多个领域均有应用案例。在智能语音交互的过程中，一般只有通过语音唤醒之后才可以对智能设备发出语音指令。在语音唤醒的过程中，用户可以通过语音发出预设唤醒词唤醒设备。例如，在一个示例中，智能汽车的唤醒词为“你好，咚咚”，当用户语音发出“你好，咚咚”的唤醒词之后，智能汽车的语音识别系统只有在识别出用户发出正确的唤醒词之后，才可以接收用户发出的语音指令，如播放音乐、导航、拨打电话等等。根据实际的应用需求，用户在说出唤醒词之后，往往会紧接着说出语音指令，例如，在上述示例中，用户可以在一开始发出“你好，咚咚，今天的天气如何”的语音指令。为了满足上述用户需求，现有技术中提出唤醒词及语音语义理解的一体化识别方式，即在通过唤醒词识别之后，紧接着识别唤醒词之后的语音指令。这样，可以实现唤醒与语音操控之间的零间隔和零延迟，减少用户语音操控的步骤，提高效率。但是，现有技术中对唤醒词与语音指令之间间隔时刻的识别方式往往不够准确，导致识别出的语音指令与实际的语音指令存在偏差。因此，现有技术中亟需一种能够准确识别出唤醒词与语音指令...

【技术保护点】
1.一种语音处理方法，其特征在于，所述方法包括：对音频数据进行语音活动性检测，得到语音数据；从所述语音数据中识别出唤醒词；确定所述唤醒词在所述语音数据中的词尾结束时刻；对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令。

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：对音频数据进行语音活动性检测，得到语音数据；从所述语音数据中识别出唤醒词；确定所述唤醒词在所述语音数据中的词尾结束时刻；对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令。2.根据权利要求1所述的方法，其特征在于，所述确定所述唤醒词在所述语音数据中的词尾结束时刻包括：获取所述唤醒词的尾字以及所述尾字的最后一个音节；确定所述最后一个音节的结束时刻；将所述结束时刻作为所述唤醒词的词尾结束时刻。3.根据权利要求2所述的方法，其特征在于，所述确定所述最后一个音节的结束时刻包括：获取所述最后一个音节的起始发音时刻；以所述起始发音时刻作为起点，在预设时间段内按照预设频率采集所述语音数据的音素；当所述音素发生变化时，将音素发生变化的时刻作为所述最后一个音节的结束时刻。4.根据权利要求1所述的方法，其特征在于，所述对所述音频数据以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令包括：从所述音频数据中截取以所述词尾结束时刻为起点之后的数据；对所述数据进行语音活动性检测；当确定所述数据中存在有效语音时，识别所述数据中的语音指令。5.根据权利要求1所述的方法，其特征在于，所述从所述语音数据中识别出唤醒词包括：将所述语音数据与唤醒词进行匹配；当从所述语音数据中匹配得到与所述唤醒词相同的数据时，确定所述语音数据中包括所述唤醒词。6.根据权利要求1所述的方法，其特征在于，若所述语音数据中包括来自多个音频通道的子语音数据，则所述从所述语音数据中识别出唤醒词包括：分别对所述来自多个音频通道的子音频数据进行唤醒词检测；若检测到其中一个音频通道的子音频数据中出现唤醒词时，则将所述音频通道作为目标音频通道，并停止对其它音频通道的子音频数据进行唤醒词检测。7.一种语音处理设备，其特征在于，包括麦克风、语音活动性检测模块、唤醒词检测模块、语音识别模块，其中，所述麦克风，用于获取音频数据；所述语音活动性检测模块，用于对所述音频数据进行语音活动性检测，得到语音数据；所述唤醒词检测模块，用于从所述语音数据中识别出唤醒词，并确定所述唤醒词在所述语音数据中的词尾结束时刻；所述语音活动性检测模块，还用于对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语...

【专利技术属性】
技术研发人员：万玉龙，高杰，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人