一种语音信息的处理方法、装置、设备及介质制造方法及图纸

技术编号：24097306 阅读：36 留言：0更新日期：2020-05-09 11:02

本发明专利技术公开了一种语音信息的处理方法、装置、设备及介质，用以解决由于离线语音交互的操作过程繁琐导致的响应效率低的问题。由于本发明专利技术实施例通过将待处理的语音信息划分为多个第一语音帧，并提取每个第一语音帧对应的第一语音特征，只需要对待处理语音信息进行一次分帧及语音特征提取的步骤，即可通过预先训练完成的声学模型以及有限状态转换机，确定待处理的语音信息中的有效语音段对应的目标语音元素序列，既完成了语音信号的端点检测，又完成了离线语音识别，从而大大简化了智能设备在离线语音交互的操作步骤，节省了大量的时间，提高了智能设备的响应效率。

A processing method, device, equipment and medium of voice information

全部详细技术资料下载

【技术实现步骤摘要】
一种语音信息的处理方法、装置、设备及介质
本专利技术涉及自然语言处理
，尤其涉及一种语音信息的处理方法、装置、设备及介质。
技术介绍
随着智能交互技术的迅猛发展，在物联网和智能家居领域中，可以通过离线语音交互实现多个指令词来控制智能交互设备完成多种任务，例如，控制智能空调的多种模式间的切换、温度调节、扫风控制等。其中，智能交互设备在进行离线语音交互的过程中，往往需要语音唤醒、语音活动检测(VoiceActivityDetection，VAD)和离线语音识别共同协作，才能完成上述相应的功能。现有技术中，智能设备采集到语音信息后，将该语音信息划分为多个语音帧，并通过梅尔倒谱系数(Mel-frequencycepstralcoefficients，MFCC)、滤波器组(FilterBank，FBank)等方法提取每个语音帧对应的语音特征。然后通过语音唤醒声学模型以及对应的有限状态转换机(FiniteStateTransducer，FST)，确定该语音信息为唤醒语音信息后，才将在该语音信息之后采集到的语音信息作...

【技术保护点】
1.一种语音信息的处理方法，其特征在于，所述方法包括：/n将待处理的语音信息划分为多个第一语音帧，并提取每个所述第一语音帧对应的第一语音特征；/n通过预先训练完成的声学模型，依次根据每个所述第一语音帧对应的第一语音特征，确定每个所述第一语音帧对应的第一输出向量，所述第一输出向量中包含对应的第一语音帧为静音帧的概率，以及该第一语音帧包含的内容信息为每种语音元素的概率；/n通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列，所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧。/n

【技术特征摘要】
1.一种语音信息的处理方法，其特征在于，所述方法包括：
将待处理的语音信息划分为多个第一语音帧，并提取每个所述第一语音帧对应的第一语音特征；
通过预先训练完成的声学模型，依次根据每个所述第一语音帧对应的第一语音特征，确定每个所述第一语音帧对应的第一输出向量，所述第一输出向量中包含对应的第一语音帧为静音帧的概率，以及该第一语音帧包含的内容信息为每种语音元素的概率；
通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列，所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧。

2.根据权利要求1所述的方法，其特征在于，任意相邻的两个第一语音帧之间存在设定时长的重叠。

3.根据权利要求1所述的方法，其特征在于，所述声学模型通过如下方式训练：
获取样本集中的任一语音信息样本，将所述语音信息样本划分为多个第二语音帧，并提取每个所述第二语音帧对应的第二语音特征，其中，每个所述第二语音帧的标签用于标识对应的第二语音帧为静音帧的第一标识值，或该第二语音帧包含的语音元素的第二标识值；
通过神经网络模型，依次根据每个所述第二语音帧对应的第二语音特征，获得每个所述第二语音特征对应的第二输出向量，所述第二输出向量中包含对应的第二语音帧为静音帧的概率，以及该第二语音帧包含的内容信息为每种语音元素的概率；
根据每个所述第二语音帧对应的第二输出向量以及所述第二语音帧对应的标签，对所述神经网络模型进行训练，得到所述声学模型。

4.根据权利要求1所述的方法，其特征在于，所述通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中有效语音段对应的目标语音元素序列，包括：
通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定每个所述第一语音帧为静音帧，或为非静音帧对应的目标语音元素；
根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的有效语音段；以及
根据所述有效语音段包含的第一语音帧对应的目标语音元素，确定所述待处理的语音信息中有效语音段对应的目标语音元素序列。

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的有效语音段，以及所述有效语音段中包含的第一语音帧包括：
根据每个所述第一语...

【专利技术属性】
技术研发人员：陈都，吴本谷，
申请(专利权)人：北京猎户星空科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人