音频处理方法、电子设备、可读存储介质及程序产品技术

技术编号：41535552 阅读：18 留言：0更新日期：2024-06-03 23:13

本公开提供了一种音频处理方法、电子设备、可读存储介质及程序产品，该音频处理方法首先对待识别的音频数据进行特征提取，得到目标频域特征，然后对目标频域特征进行下采样，得到多个帧的目标特征向量，之后基于训练好的网络模型得到预测结果，网络模型的输入包括多个帧的目标特征向量所形成的输入序列，预测结果包括多个帧各自相对于多个语音标签的概率，最后基于目标文本中的单位文本之间的关联关系以及预测结果进行目标文本的识别，得到识别结果，识别结果表征所述待识别的音频数据对应的待识别文本中是否包含目标文本。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及音频处理方法、电子设备、可读存储介质及程序产品。

技术介绍

1、最近几年随着深度学习和智能语音技术的发展，语音关键词识别(keywordspotting，简称kws)已经成为智能生活的一个重要部分。kws的目的在于从连续的音频流中识别出我们预先指定的命令词。kws技术广泛应用于人们的生活和工作当中，从语音唤醒手机助手，到语音命令控制智能家电，这个技术给人们的生活和工作带来了便利。

2、目前常见的kws方案需要训练精准的连续语音识别模型。部署大的语音识别模型需要更高性能的硬件支持，例如部署在云端服务器中，这使得语音识别模型很难部署在性能较低的硬件环境中，例如离线部署在智能家居的低功耗且内存小的芯片上。因此，目前的kws方案对应用环境的硬件和性能的要求较高，使得语音识别的成本较高。

技术实现思路

1、为了解决上述技术问题中的至少一个，本公开提供了音频处理方法、装置、电子设备、可读存储介质及计算机程序产品。

2、本公开第一方面提出了一种音频处理方法，包括：对待识...

【技术保护点】

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述目标频域特征进行下采样，得到多个帧的目标特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，按预设的卷积核大小和预设的步长对所述目标频域特征进行一维卷积，得到多个帧的目标特征向量，包括：

4.根据权利要求1所述的方法，其特征在于，基于训练好的网络模型得到预测结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述单位文本之间的关联关系通过所述单位文本形成的解码图表示，所述解码图包括状态节点，所述状态节点与所述单位文本一一对应，所述状态节点对...

【技术特征摘要】

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述目标频域特征进行下采样，得到多个帧的目标特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，按预设的卷积核大小和预设的步长对所述目标频域特征进行一维卷积，得到多个帧的目标特征向量，包括：

4.根据权利要求1所述的方法，其特征在于，基于训练好的网络模型得到预测结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述单位文本之间的关联关系通过所述单位文本形成的解码图表示，所述解码图包括状态节点，所述状态节点与所述单位文本一一对应，所述状态节点对应有令牌，所述令牌表示当前状态节点及其之前的状态节点的解码信息。

6.根据...

【专利技术属性】
技术研发人员：张岩，孙鹏飞，李志飞，
申请(专利权)人：出门问问创新科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人