一种延迟控制方法和装置制造方法及图纸

技术编号：26532823 阅读：26 留言：0更新日期：2020-12-01 14:17

本申请公开了一种延迟控制方法和装置，应用于语音识别系统中，所述语音识别系统中包括延迟控制参数，其中所述方法包括：确定待识别语音信号的延迟等级；根据所述延迟等级确定所述待识别语音信号的目标延迟估计时间；确定所述待识别语音信号的时变延迟时间和非时变延迟时间；结合所述时变延迟时间、所述非时变延迟时间以及所述目标延迟估计时间，判断是否需要调整所述语音识别系统的语音识别延迟时间；若判定需要调整所述语音识别系统的语音识别延迟时间，则调整所述延迟控制参数的值，以达到根据当前语境的延迟等级动态调整语音识别延迟的目的，提高ASR系统快速适应变化的延迟环境的能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种延迟控制方法和装置
本申请实施例涉及语音识别技术，尤其涉及一种延迟控制方法和装置。
技术介绍
语音识别(AutomaticSpeechRecognition，简称ASR)是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转换为相应的文本或命令的技术。随着信息技术的发展，语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音识别技术的应用场景也变得越来越广泛，例如语音识别技术可以应用在字幕添加、识别谈话中的敏感内容、人机交互等场景。在使用语音识别技术的过程中，不可避免地存在网络延迟、语音解码延迟等延迟，导致将语音转换成文字的实时性难以达到业务要求。为了提高语音识别的实时性，在相关技术中，可以在ASR模型的训练阶段对语音解码器剪枝或压缩，但这样会导致语音识别的识别率受损。
技术实现思路
本申请提供一种延迟控制方法和装置，以解决为了提高语音识别的实时性而导致识别率受损的问题。第一方面，本申请实施例提供了一种...

【技术保护点】
1.一种延迟控制方法，其特征在于，所述方法应用于语音识别系统中，所述语音识别系统中包括延迟控制参数，所述方法包括：/n确定待识别语音信号的延迟等级；/n根据所述延迟等级确定所述待识别语音信号的目标延迟估计时间；/n确定所述待识别语音信号的时变延迟时间和非时变延迟时间；/n结合所述时变延迟时间、所述非时变延迟时间以及所述目标延迟估计时间，判断是否需要调整所述语音识别系统的语音识别延迟时间；/n若判定需要调整所述语音识别系统的语音识别延迟时间，则调整所述延迟控制参数的值。/n

【技术特征摘要】
1.一种延迟控制方法，其特征在于，所述方法应用于语音识别系统中，所述语音识别系统中包括延迟控制参数，所述方法包括：
确定待识别语音信号的延迟等级；
根据所述延迟等级确定所述待识别语音信号的目标延迟估计时间；
确定所述待识别语音信号的时变延迟时间和非时变延迟时间；
结合所述时变延迟时间、所述非时变延迟时间以及所述目标延迟估计时间，判断是否需要调整所述语音识别系统的语音识别延迟时间；
若判定需要调整所述语音识别系统的语音识别延迟时间，则调整所述延迟控制参数的值。

2.根据权利要求1所述的延迟控制方法，其特征在于，所述非时变延迟时间包括网络传输延迟时间，所述时变延迟时间包括抖动缓冲延迟时间、语音解码延迟时间和语音识别延迟估计时间；
所述结合所述时变延迟时间、所述非时变延迟时间以及所述目标延迟估计时间，判断是否需要调整所述语音识别系统的语音识别延迟时间，包括：
判断所述网络传输延迟时间、所述抖动缓冲延迟时间、所述语音解码延迟时间与所述语音识别延迟估计时间之和是否小于或等于所述目标延迟估计时间；
若是，则判定不需要调整所述语音识别系统的语音识别延迟时间；
若否，则判定需要调整所述语音识别系统的语音识别延迟时间。

3.根据权利要求2所述的延迟控制方法，其特征在于，当所述时变延迟时间为抖动缓冲延迟时间，所述确定所述待识别语音信号的时变延迟时间和非时变延迟时间包括：
获取在所述待识别语音信号之前预设时间段内的语音信号的网络传输延迟时间，并计算相邻的网络传输延迟时间之间的抖动；
计算所述抖动的标准差，并根据所述标准差调整抖动缓冲区的长度，作为抖动缓冲延迟时间。

4.根据权利要求2所述的延迟控制方法，其特征在于，当所述时变延迟时间为语音解码延迟时间，所述确定所述待识别语音信号的时变延迟时间和非时变延迟时间包括：
确定所述待识别语音信号采用的目标编解码算法和码率，并获取所述目标编解码算法以及所述码率对应的语音解码延迟时间。

5.根据权利要求2所述的延迟控制方法，其特征在于，当所述时变延迟时间为语音识别延迟估计时间，所述确定所述待识别语音信号的时变延迟时间和非时变延迟时间包括：
获取上一单位时间的语音信号的语音识别延迟时间；
将所述待识别语音信号以及所述上一单位时间的语音信号的语音识别延迟时间输入至已训练的延迟预测模型，并获得所述延迟预测模型输出的语音识别延迟估计时间。

6.根据权利要求2-5任一项所述的延迟控制方法，其特征在于，所述调整所述延迟控制参数的值，包括：
计算所述目标延迟估计时间与所述网络传输延迟时间、所述抖动缓冲延迟时间及所述语音解码延迟时间的差值，作为可用语音识别延迟时间；
根据所述可用语音识别延迟时间，对所述延迟控制参数的值进行调整。

7.根据权利要求6所述的延迟控制方法，其特征在于，所述延迟控制参数包括集束搜索...

【专利技术属性】
技术研发人员：胡正伦，陈江，
申请(专利权)人：广州市百果园信息技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人