一种语音处理方法及装置制造方法及图纸

技术编号:24689919 阅读:24 留言:0更新日期:2020-06-27 09:48
本申请实施例公开了一种语音处理方法及装置。所述方法包括:对语音信号进行分帧处理,生成多个语音帧;分别提取所述多个语音帧对应的声学特征;利用声学模型按照帧移为第一数量的频率处理所述声学特征,以在单次帧移处理后获取第二数量的后验概率向量,所述后验概率向量包括声学特征分别对应于多个预设建模单元的概率,所述声学模型基于低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到。利用本申请提供的语音处理方法,可以在保证声学模型输出准确性的基础上,极大地提高声学模型的计算效率,提高语音识别的识别效率。

A speech processing method and device

【技术实现步骤摘要】
一种语音处理方法及装置
本申请涉及语音识别
,特别涉及一种语音处理方法及装置。
技术介绍
近几年随着深度学习技术的使用,基于深度神经网络的语音识别系统性能获得了极大的提升,开始慢慢走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。声学模型是语音识别系统的一个核心模块,也是目前的研究热点。据统计,利用声学模型对语音信号进行解码的过程是整个解码过程中最消耗计算资源的环节,因此,降低声学模型的计算成本是比较重要的技术需求。对于所述声学模型,输入的是语音信号中每个语音帧提取的声学特征。而每个语音帧的声学特征理论上对应于一个建模单元,所述建模单元例如可以包括音素状态(state)、绑定的音素状态(CD-state)、音素(phone)、绑定的音素(CD-phone)中的一种。在汉字中,所述建模单元例如可以包括声母、韵母等。基于此,所述声学模型的输出是该语音帧的声学特征相对于多个预设建模单元的后验概率分布。这样,输入的多个声学特征可以被转化成多个后验概率分布,然后,可以结合语言模型进行解码,得到所述语音信本文档来自技高网...

【技术保护点】
1.一种语音处理方法,其特征在于,所述方法包括:/n对语音信号进行分帧处理,生成多个语音帧;/n分别提取所述多个语音帧对应的声学特征;/n利用声学模型按照帧移为第一数量的频率处理所述声学特征,以在单次帧移处理后获取第二数量的后验概率向量,所述后验概率向量包括声学特征分别对应于多个预设建模单元的概率,所述声学模型基于低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到。/n

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:
对语音信号进行分帧处理,生成多个语音帧;
分别提取所述多个语音帧对应的声学特征;
利用声学模型按照帧移为第一数量的频率处理所述声学特征,以在单次帧移处理后获取第二数量的后验概率向量,所述后验概率向量包括声学特征分别对应于多个预设建模单元的概率,所述声学模型基于低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到。


2.根据权利要求1所述的方法,其特征在于,所述声学模型被设置为按照下述方式处理所述声学特征:
在单次帧移处理中,将所述第一数量的声学特征划分成所述第二数量的声学特征序列,所述声学特征序列中包括具有相邻关系的多个声学特征;
分别对所述第二数量的声学特征序列进行处理,生成所述第二数量的后验概率向量。


3.根据权利要求1所述的方法,其特征在于,所述声学模型被设置为按照下述方式训练得到:
获取多个历史语音信号、所述历史语音信号对应的多个声学特征以及所述声学特征对应的建模单元;
将所述历史语音信号对应的多个声学特征按照帧移为所述第一数量的频率进行划分;
将所述第一数量的声学特征划分成所述第二数量的声学特征序列,所述声学特征序列中包括具有相邻关系的第三数量的声学特征;
根据所述第三数量的声学特征对应的建模单元,分别计算所述第二数量的声学特征序列对应于多个预设建模单元的平均概率向量;
利用所述多个历史语音信号的声学特征序列以及所述声学特征序列对应的平均概率向量训练生成所述声学模型。


4.根据权利要求3所述的方法,其特征在于,所述利用所述多个历史语音信号的声学特征序列以及所述声学特征序列对应的平均概率向量训练生成所述声学模型包括:
构建基于深度学习的声学模型,所述声学模型中设置有网络参数;
将所述历史语音信号按照每次输入所述第二数量的声学特征序列的规则输入所述声学模型,并在每次获取所述第二数量的预测概率向量;
基于所述平均概率向量与所述预测概率向量之间的差异,对所述网络参数进行迭代调整,直至所述差异满足预设要求。


5.根据权利要求4所述的方法,其特征在于,所述声学模型中包括主神经网络和所述第二数量的相互独立的子神经网络,所述主神经网络的输入端为所述声学模型的输入端,所述主神经网络的输出端分别与所述第二数量的子神经网络的输入端相耦合,所述第二数量的子神经网络的输出端为所述声学模型的输出端。


6.根据权利要求4所述的方法,其特征在于,所述声学模型中包括主神经网络和具有多层结构的多个子神经网络,所述主神经网络的输入端为所述声学模型的输入端,所述主神经网络的输出端与所述多个子神经网络的第一层的输入端相耦合,所述多个子神经网络最后一层的输出端为所述声学模型的输出端。


7.一种语音处理装置,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现下...

【专利技术属性】
技术研发人员:张仕良雷鸣李威姚海涛
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1