音频识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：29529148 阅读：24 留言：0更新日期：2021-08-03 15:16

本申请涉及一种音频识别方法、装置、计算机设备和存储介质。所述方法包括：接收音频流信息，所述音频流信息中包括：音频流采样率；根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；接收音频流片段；根据所述输入控制参数，将所述音频流片段输入声学模型，获取得分列表；根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。本申请实施例中，根据接收到的音频流采样率，获取声学模型的输入控制参数以及解码器的解码参数，根据声学模型和解码器获得识别结果，无需根据采样率配备多套系统，可以减少成本。

全部详细技术资料下载

【技术实现步骤摘要】
音频识别方法、装置、计算机设备和存储介质
本申请涉及数据处理领域，尤其涉及一种音频识别方法、装置、计算机设备和存储介质。
技术介绍
随着技术的不断进步，语音交互技术的应用越发的广泛，例如智能外呼机器人、智能客服质检等。在语音交互过程中，为提高用户体验，需要及时对用户语音输入进行处理，以降低响应延时。比如在智能外呼场景下，就需要产品能够准确、快速地通过语音识别服务器将该语音识别成文字信息，然后再根据自然语言处理得到用户意图后，作出相应的回复，从而完成一轮对话。然而，目前对不同的应用场景，往往会有不同的语音流的需求，如外呼电话类产生的是8k音频流，会议类产生的是16k的音频流，不同的应用场景、应用设备，往往会有不同的音频流产生。为了支持不同的业务，语音服务需要维护多套相似的系统，会产生大量的资源消耗和人力维护成本。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种音频识别方法、装置、计算机设备和存储介质。第一方面，本申请提供了一种音频识别方法，所述方法...

【技术保护点】
1.一种音频识别方法，其特征在于，所述方法包括：/n接收音频流信息，所述音频流信息中包括：音频流采样率；/n根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；/n接收音频流片段；/n根据所述输入控制参数，将所述音频流片段输入声学模型，获取得分列表；/n根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。/n

【技术特征摘要】
1.一种音频识别方法，其特征在于，所述方法包括：
接收音频流信息，所述音频流信息中包括：音频流采样率；
根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；
接收音频流片段；
根据所述输入控制参数，将所述音频流片段输入声学模型，获取得分列表；
根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述输入控制参数包括：预设阈值和预设数据量，
所述根据输入控制参数，将音频流片段输入所述声学模型，获取得分列表，包括：
获取存储器中的所有音频流片段；
判断所述所有音频流片段的总数据量是否大于预设阈值；
如果所有音频流片段的总数据量大于预设阈值，则按照时间戳的顺序从后至前，依次获取多个音频流片段，将多个音频流片段的总和作为所述待识别音频流，使所述待识别音频流的总数据量等于预设数据量，其中，所述最后一个时间戳对应的音频流片段为当前音频流片段；
根据所述声学模型，获取所述待识别音频流对应的第一得分列表；
从所述第一得分列表中，筛选出当前音频流片段对应的第二得分列表。

3.根据权利要求2所述的方法，其特征在于，所述根据解码参数，将得分列表输入解码器中，获取识别结果，包括：
将所述第二得分列表和上一时间戳对应的解码参数输入所述解码器，得到当前音频流片段的识别结果；
所述得到当前音频流片段的识别结果之后，所述方法还包括：
生成并存储当前时间戳对应的解码参数。

4.根据权利要求1所述的方法，其特征在于，所述接收音频流信息之前，所述方法还包括：
接收长连接申请；
根据所述长连接申请，建立与用户端之间的长连接；
接收所述用户端通过所述长连接发送的验证信息；
根据所述验证信息对所述用户端进行身份验证，如果验证通过，则允许接收所述音频流信息。

5.根据权利要求1所述的方法，其特征在于，首次接收的音频流信息中还包括单次传输数据量，
所述根据音频流采样率获取声学模型的输入控制参数和解码器的解码参数，包括：
根据音频流采样率和单次传输数据量，得到初始化解码参数；
根据音频流采样率和单次传输数据量，获取预设阈值和预...

【专利技术属性】
技术研发人员：赵晴，
申请(专利权)人：京东数字科技控股股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人